ElevenLabs STT
Free.ai
·
stt
·
~500 žetonov na minute
ElevenLabs STT is a model govora v besedilo. Pot prek zunanjih modelov – ~500 žetonov na minuto (50 % označevanja nad stroški nad tokom).
Uporaba prek API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
Dokumentacija API
Dobi ključ API
Pogosta vprašanja
ElevenLabs STT transcribes spoken audio into text. Upload an MP3, WAV, M4A, or video file and ElevenLabs STT returns the full transcript plus optional SRT/VTT subtitles with timestamps.
ElevenLabs STT upravlja na ducate jezikov – Whisper- družinski modeli pokrivajo 90+, Parakeet pokriva ~25, drugi se razlikujejo. Izberite "avtodetekcijo" ali navedite jezik za najvišjo natančnost.
Hitrost besedo-greh je 5–10% na čistem angleškem avdio, 10–20% na hrupnem ali naglasnem avdio. Velika različica iste arhitekture je smiselno boljša na trdih primerih – izberite večji, ko je zvok grob.
Da – vsak segment vključuje začetna/končna časovna oznaka. Izvozi kot SRT ali VTT in časovni zemljevid naravnost na vaš video.
ElevenLabs STT je premium transkription motor. Okrog ~500–1,500 žetonov na minuto avdio. $1 = 750.000 žetonov.
MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) – izvlečemo zvok. Max 500 MB na nalaganje. Datoteke daljši? Razdelite z /audio/cut/ ali uporabite /v1/stt/batch /.
Diarizacija zvočnika je ločena prepustnica – vklopite "diarize" na /transcribed /. ElevenLabs STT obvladuje prepis; dijarizacijska oznaka vsak segment z zvočnikom 1 / zvočnik 2 / itd.
Da – /batch/ sprejema mapo zvočnih datotek. Vsak transkript pristane v /account /?tab=history z izvirnim imenom datoteke. Za ohranjanje mape- drevo uporabite API.
Da – POST svoj zvok na /v1/stt/transcribe/ z modelom="ElevenLabs STT". Vrne JSON z besedilom + segmenti + časovne oznake na besedni ravni. /api / ima polno sklicevanje.
Samostojni modeli ohranjajo zvok na naših GPU; premium prehod z DPA. Audio se izbriše po delnem oknu (24h anon, 7d podpis-in). Ne treniramo na vaših vhodih.
Da – Free.ai dodeljuje komercialno uporabo transkriptov. Potrebujete pravice do avdio, ki ste ga naložili (svoje lastno snemanje, licencirano gradivo ali vsebino s soglasjem).
Faktor v realnem času je približno 0,05–0,2× – 60-minutni podcast transkripti v 3–12 minutah. Premium modeli pogosto končajo hitreje. Uporabite gumb za zapiranje zavihka.