ElevenLabs STT
Free.ai
·
stt
·
~500 tl> token bawat minute
Ang ElevenLabs STT ay isang a at Modelong pagsasalita-sa-teksto. Ang mga ito ay: 1.
> Gamitin sa pamamagitan ng API
> OpenAI-compatible REST API. Bumuo ng isang susi at tawagan ang modelong ito sa ilang segundo.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
API Dokumentasyon
> Kumuha ng API Key
Mga Madalas Itanong
Ang ElevenLabs STT ay nagpapalit ng mga salitang narinig sa mga teksto. I-upload ang isang MP3, WAV, M4A, o video file at ang ElevenLabs STT ay magpapalit ng buong transcript at mga opsyonal na SRT/VTT na mga subtitle na may mga timestamp.
ElevenLabs STT ay may kakayahang mag-handle ng dose-dosenang mga wika — ang Whisper-family models ay sumasaklaw sa 90%, ang Parakeet ay sumasaklaw sa ~25, ang iba ay iba-iba. Pumili ng "auto-detect" o tukuyin ang wika para sa pinakamataas na katumpakan.
> Word-error rate ay 5-10% sa malinis na Ingles audio, 10-20% sa noisy o accented audio. Malalaking mga variant ng parehong architecture gawin makabuluhang mas mahusay sa mahirap na kaso - pumili ng mas malaki kapag ang audio ay magaspang.
> Oo - bawat segment ay kasama ang simula / katapusan ng timestamps. Export bilang SRT o VTT at ang mga oras ng mapa tuwid sa iyong video.
Ang ElevenLabs STT ay isang premium na makina ng transkripsiyon. Tungkol sa ~500-1,500 token bawat minuto ng audio. $1 = 750,000 token.
Ang mga file na ito ay maaaring i-convert sa MP3, WAV, M4A, FLAC, OGG, pati na rin ang video (MP4, MOV, WebM) — kami ay mag-extract ng audio. Max 500 MB bawat pag-upload.
Ang mga salitang "diary" at "diary" ay may dalawang kahulugan: Ang diary ay isang talaan ng mga bagay na naganap sa isang partikular na panahon.
> Oo — / batch / tumatanggap ng isang folder ng mga file ng audio. Ang bawat transcript lupain sa / account /? tab = kasaysayan na may orihinal na pangalan ng file. Para sa folder-tree preservation gamitin ang API.
Ang mga ito ay: 1. ang mga salitang "Ito ay" at "Ito ay" ay may mga titik na "I" at "O" na nakalagay sa mga dulo ng mga salita.
> Self-hosted modelo panatilihin ang audio sa aming GPUs; premium pumasa sa pamamagitan ng isang DPA. Audio ay tinanggal pagkatapos ng share-window (24h anon, 7d naka-sign-in). Hindi namin tren sa iyong mga input.
> Oo — Ang Free.ai ay nagbibigay ng komersyal na paggamit ng mga transcript. Kailangan mo ng mga karapatan sa audio na iyong nai-upload (ang iyong sariling pag-record, lisensyadong materyal, o nilalaman na may pahintulot).
> Real-time na kadahilanan ay humigit-kumulang 0.05-0.2 × — isang 60-minuto podcast transcribes sa3–12 minuto. Premium modelo madalas na matapos mas mabilis. Gamitin ang pindutan ng queue upang isara ang tab.