ElevenLabs STT

Free.ai · stt · ~500 จำนวนของชิ้นส่วนต่อหน่วย minute

วางแฟ้มเสียงหรือวิดีโอลงไป หรือปักหมุดที่อยู่ URL ไว้ด้านล่าง

~500 จำนวนของชิ้นส่วนต่อหน่วย minute
ทำงานฟรีบน GPU ของเรา ปรับระดับสำหรับ ElevenLabs STT →

ElevenLabs STT คือ a โมเดลการแปลงเสียงเป็นข้อความ นำทางผ่านโมเดลภายนอก - ~500 โต๊กเกอร์ ต่อนาที (50% ค่าใช้จ่ายสูงกว่าต้นทาง)

ใช้ผ่าน API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
เอกสาร API เอากุญแจ API มา

คำถามที่ถามบ่อย

ElevenLabs STT ใช้บันทึกเสียงที่พูดออกมาเป็นข้อความ โหลดแฟ้ม MP3, WAV, M4A หรือวิดีโอ และ ElevenLabs STT จะส่งผลลัพธ์เป็นข้อความที่บันทึกออกมาเต็มรูปแบบ รวมถึงตัวเลือกของคำอธิบาย SRT/VTT ด้วยสแตมป์เวลา

ElevenLabs STT สามารถจัดการภาษาได้หลายสิบภาษา — แบบจำลอง Whisper-family รองรับ 90+, Parakeet รองรับ ~25, อื่นๆ อาจแตกต่างกันไป เลือก "ตรวจจับอัตโนมัติ" หรือระบุภาษาเพื่อความแม่นยำสูงสุด

อัตราความผิดพลาดของคำคือ 5- 10% สำหรับเสียงอังกฤษที่สะอาด 10- 20% สำหรับเสียงที่มีเสียงรบกวนหรือเสียงที่เน้นเสียง ตัวแปรขนาดใหญ่ของสถาปัตยกรรมเดียวกันทำได้ดีกว่าในกรณีที่ยาก - เลือกขนาดใหญ่เมื่อเสียงมันหยาบ

ใช่ — ทุกๆ ส่วนจะรวมถึงสแตมป์เวลาเริ่ม/จบ นำออกเป็น SRT หรือ VTT และเวลาจะถูกแปลงไปยังวิดีโอของคุณโดยตรง

ElevenLabs STT เป็นเครื่องมือแปลภาษาระดับพรีเมี่ยม ประมาณ ~500-1,500 โต๊กเกอร์ต่อนาทีของเสียง 1 ดอลลาร์ = 750,000 โต๊กเกอร์

MP3, WAV, M4A, FLAC, OGG, รวมถึงวิดีโอ (MP4, MOV, WebM) — เราจะดึงเสียงออกมา สูงสุด 500 MB ต่อการอัพโหลด แฟ้มยาวกว่านี้? แยกด้วย /audio/cut/ หรือใช้ /v1/stt/batch/

การแปลภาษาเป็นภาษาของผู้พูดเป็นขั้นตอนที่แยกกันออกไป - เปลี่ยน "diarize" ใน / transcribe / ElevenLabs STT จัดการการแปลภาษา; การแปลภาษาจะระบุแต่ละส่วนด้วย คนพูด 1 / คนพูด 2/ ฯลฯ

ใช่ — / batch / รองรับโฟลเดอร์ของแฟ้มเสียง ทุกๆ ส่วนที่แปลเป็นภาษาอื่น จะถูกเก็บไว้ใน / account /? tab=history ด้วยชื่อแฟ้มเดิม สำหรับการเก็บรักษาโฟลเดอร์- ต้นไม้ ใช้ API

ใช่ — POST เสียงของคุณไปยัง /v1/stt/transcribe/ ด้วย model="ElevenLabs STT". คืนค่า JSON ด้วยข้อความ + ส่วน + ตราเวลาระดับคำ. /api/ มีข้อมูลอ้างอิงเต็ม

โมเดลที่ใช้ตัวมันเองจะเก็บเสียงไว้บน GPU ของเรา; โมเดลพิเศษจะส่งผ่านผ่าน DPA เสียงจะถูกลบหลังจากที่เปิดหน้าต่างแบ่งปัน (24 ชั่วโมงโดยไม่ระบุชื่อ, 7วันหลังจากเข้าระบบ) เราจะไม่ฝึกการเข้าถึงข้อมูลของคุณ

ใช่ — Free.ai อนุมัติการใช้ในเชิงพาณิชย์ของการตีความ คุณต้องมีสิทธิ์ในการใช้งานเสียงที่คุณอัพโหลด (การบันทึกของคุณเอง, วัสดุที่ได้รับอนุญาต, หรือเนื้อหาที่ได้รับอนุญาต)

ค่าเวลาจริงประมาณ 0.05–0.2× — พอดคาสต์ 60 นาที จะถูกบันทึกในเวลา 3–12 นาที รุ่นพิเศษจะทำงานเร็วกว่า ใช้ปุ่มคิวเพื่อปิดแท็บ

Love this tool? Share it!

จัดอันดับหน้านี้