faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 จำนวนของชิ้นส่วนต่อหน่วย minute

วางแฟ้มเสียงหรือวิดีโอลงไป หรือปักหมุดที่อยู่ URL ไว้ด้านล่าง

~500 จำนวนของชิ้นส่วนต่อหน่วย minute

faster-whisper large-v3 เป็น a โมเดลการแปลงเสียงเป็นข้อความ สร้างโดย OpenAI / SYSTRAN แข็งแกร่งที่สุดที่ Accurate transcription จัดเก็บข้อมูลด้วยตนเองบน Free.ai GPUs — ทำงานฟรีกับสระของโต๊ะประจำวันของคุณ (500 โต๊ะ ต่อนาที) ปล่อยออกมาภายใต้ MIT — อนุญาตให้ใช้ในเชิงพาณิชย์บน Free.ai

ใช้ผ่าน API

REST API รองรับ OpenAI สร้างกุญแจและเรียกโมเดลนี้ในไม่กี่วินาที

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'
เอกสาร API เอากุญแจ API มา

คำถามที่ถามบ่อย

faster-whisper large-v3 ใช้บันทึกเสียงที่พูดออกมาเป็นข้อความ โหลดแฟ้ม MP3, WAV, M4A หรือวิดีโอ และ faster-whisper large-v3 จะส่งผลลัพธ์เป็นข้อความที่บันทึกออกมาเต็มรูปแบบ รวมถึงตัวเลือกของคำอธิบาย SRT/VTT ด้วยสแตมป์เวลา

faster-whisper large-v3 สามารถจัดการภาษาได้หลายสิบภาษา — แบบจำลอง Whisper-family รองรับ 90+, Parakeet รองรับ ~25, อื่นๆ อาจแตกต่างกันไป เลือก "ตรวจจับอัตโนมัติ" หรือระบุภาษาเพื่อความแม่นยำสูงสุด

อัตราความผิดพลาดของคำคือ 5- 10% สำหรับเสียงอังกฤษที่สะอาด 10- 20% สำหรับเสียงที่มีเสียงรบกวนหรือเสียงที่เน้นเสียง ตัวแปรขนาดใหญ่ของสถาปัตยกรรมเดียวกันทำได้ดีกว่าในกรณีที่ยาก - เลือกขนาดใหญ่เมื่อเสียงมันหยาบ

ใช่ — ทุกๆ ส่วนจะรวมถึงสแตมป์เวลาเริ่ม/จบ นำออกเป็น SRT หรือ VTT และเวลาจะถูกแปลงไปยังวิดีโอของคุณโดยตรง

faster-whisper large-v3 ทำงานบน GPU ของพวกเราเอง ต่อสู้กับสระฟรีของคุณในแต่ละวันก่อน หลังจากนั้น $5 → 200,000 โต๊กเก็ตที่จ่ายแล้ว ประมาณ ~500 โต๊กเก็ตต่อนาที

MP3, WAV, M4A, FLAC, OGG, รวมถึงวิดีโอ (MP4, MOV, WebM) — เราจะดึงเสียงออกมา สูงสุด 500 MB ต่อการอัพโหลด แฟ้มยาวกว่านี้? แยกด้วย /audio/cut/ หรือใช้ /v1/stt/batch/

การแปลภาษาเป็นภาษาของผู้พูดเป็นขั้นตอนที่แยกกันออกไป - เปลี่ยน "diarize" ใน / transcribe / faster-whisper large-v3 จัดการการแปลภาษา; การแปลภาษาจะระบุแต่ละส่วนด้วย คนพูด 1 / คนพูด 2/ ฯลฯ

ใช่ — / batch / รองรับโฟลเดอร์ของแฟ้มเสียง ทุกๆ ส่วนที่แปลเป็นภาษาอื่น จะถูกเก็บไว้ใน / account /? tab=history ด้วยชื่อแฟ้มเดิม สำหรับการเก็บรักษาโฟลเดอร์- ต้นไม้ ใช้ API

ใช่ — POST เสียงของคุณไปยัง /v1/stt/transcribe/ ด้วย model="faster-whisper large-v3". คืนค่า JSON ด้วยข้อความ + ส่วน + ตราเวลาระดับคำ. /api/ มีข้อมูลอ้างอิงเต็ม

โมเดลที่ใช้ตัวมันเองจะเก็บเสียงไว้บน GPU ของเรา; โมเดลพิเศษจะส่งผ่านผ่าน DPA เสียงจะถูกลบหลังจากที่เปิดหน้าต่างแบ่งปัน (24 ชั่วโมงโดยไม่ระบุชื่อ, 7วันหลังจากเข้าระบบ) เราจะไม่ฝึกการเข้าถึงข้อมูลของคุณ

ใช่ — Free.ai อนุมัติการใช้ในเชิงพาณิชย์ของการตีความ คุณต้องมีสิทธิ์ในการใช้งานเสียงที่คุณอัพโหลด (การบันทึกของคุณเอง, วัสดุที่ได้รับอนุญาต, หรือเนื้อหาที่ได้รับอนุญาต)

ค่าเวลาจริงประมาณ 0.05–0.2× — พอดคาสต์ 60 นาที จะถูกบันทึกในเวลา 3–12 นาที รุ่นพิเศษจะทำงานเร็วกว่า ใช้ปุ่มคิวเพื่อปิดแท็บ

Love this tool? Share it!

จัดอันดับหน้านี้