Wizper (Whisper v3)
Free.ai
·
stt
·
~500 จำนวนของชิ้นส่วนต่อหน่วย minute
Wizper (Whisper v3) คือ a โมเดลการแปลงเสียงเป็นข้อความ นำทางผ่านโมเดลภายนอก - ~500 โต๊กเกอร์ ต่อนาที (50% ค่าใช้จ่ายสูงกว่าต้นทาง)
ใช้ผ่าน API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/wizper","audio_url":"https://..."}'
เอกสาร API
เอากุญแจ API มา
คำถามที่ถามบ่อย
Wizper (Whisper v3) ใช้บันทึกเสียงที่พูดออกมาเป็นข้อความ โหลดแฟ้ม MP3, WAV, M4A หรือวิดีโอ และ Wizper (Whisper v3) จะส่งผลลัพธ์เป็นข้อความที่บันทึกออกมาเต็มรูปแบบ รวมถึงตัวเลือกของคำอธิบาย SRT/VTT ด้วยสแตมป์เวลา
Wizper (Whisper v3) สามารถจัดการภาษาได้หลายสิบภาษา — แบบจำลอง Whisper-family รองรับ 90+, Parakeet รองรับ ~25, อื่นๆ อาจแตกต่างกันไป เลือก "ตรวจจับอัตโนมัติ" หรือระบุภาษาเพื่อความแม่นยำสูงสุด
อัตราความผิดพลาดของคำคือ 5- 10% สำหรับเสียงอังกฤษที่สะอาด 10- 20% สำหรับเสียงที่มีเสียงรบกวนหรือเสียงที่เน้นเสียง ตัวแปรขนาดใหญ่ของสถาปัตยกรรมเดียวกันทำได้ดีกว่าในกรณีที่ยาก - เลือกขนาดใหญ่เมื่อเสียงมันหยาบ
ใช่ — ทุกๆ ส่วนจะรวมถึงสแตมป์เวลาเริ่ม/จบ นำออกเป็น SRT หรือ VTT และเวลาจะถูกแปลงไปยังวิดีโอของคุณโดยตรง
Wizper (Whisper v3) เป็นเครื่องมือแปลภาษาระดับพรีเมี่ยม ประมาณ ~500-1,500 โต๊กเกอร์ต่อนาทีของเสียง 1 ดอลลาร์ = 750,000 โต๊กเกอร์
MP3, WAV, M4A, FLAC, OGG, รวมถึงวิดีโอ (MP4, MOV, WebM) — เราจะดึงเสียงออกมา สูงสุด 500 MB ต่อการอัพโหลด แฟ้มยาวกว่านี้? แยกด้วย /audio/cut/ หรือใช้ /v1/stt/batch/
การแปลภาษาเป็นภาษาของผู้พูดเป็นขั้นตอนที่แยกกันออกไป - เปลี่ยน "diarize" ใน / transcribe / Wizper (Whisper v3) จัดการการแปลภาษา; การแปลภาษาจะระบุแต่ละส่วนด้วย คนพูด 1 / คนพูด 2/ ฯลฯ
ใช่ — / batch / รองรับโฟลเดอร์ของแฟ้มเสียง ทุกๆ ส่วนที่แปลเป็นภาษาอื่น จะถูกเก็บไว้ใน / account /? tab=history ด้วยชื่อแฟ้มเดิม สำหรับการเก็บรักษาโฟลเดอร์- ต้นไม้ ใช้ API
ใช่ — POST เสียงของคุณไปยัง /v1/stt/transcribe/ ด้วย model="Wizper (Whisper v3)". คืนค่า JSON ด้วยข้อความ + ส่วน + ตราเวลาระดับคำ. /api/ มีข้อมูลอ้างอิงเต็ม
โมเดลที่ใช้ตัวมันเองจะเก็บเสียงไว้บน GPU ของเรา; โมเดลพิเศษจะส่งผ่านผ่าน DPA เสียงจะถูกลบหลังจากที่เปิดหน้าต่างแบ่งปัน (24 ชั่วโมงโดยไม่ระบุชื่อ, 7วันหลังจากเข้าระบบ) เราจะไม่ฝึกการเข้าถึงข้อมูลของคุณ
ใช่ — Free.ai อนุมัติการใช้ในเชิงพาณิชย์ของการตีความ คุณต้องมีสิทธิ์ในการใช้งานเสียงที่คุณอัพโหลด (การบันทึกของคุณเอง, วัสดุที่ได้รับอนุญาต, หรือเนื้อหาที่ได้รับอนุญาต)
ค่าเวลาจริงประมาณ 0.05–0.2× — พอดคาสต์ 60 นาที จะถูกบันทึกในเวลา 3–12 นาที รุ่นพิเศษจะทำงานเร็วกว่า ใช้ปุ่มคิวเพื่อปิดแท็บ