ElevenLabs STT
Free.ai
·
stt
·
~500 жетони по minute
ElevenLabs STT is a модел од говор во текст. Путен преку надворешни модели — ~500 žeтони во минута (50% маркирање над цената одгоре на потокот).
Користи преку API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
API документација
Земи API- клуч
Често поставувани прашања
ElevenLabs STT transcribes зборуваниот аудио во текст. Внесете MP3, WAV, M4A или видео датотека и ElevenLabs STT го врати целосниот транскрипт плус опционални SRT/VTT субтитри со временски табели.
ElevenLabs STT раководи со десетици јазици — Whisper- семејни модели покриваат 90+, Parakeet покрива ~25, други варираат. Изберете „автодетекција“ или наведете го јазикот за највисока точност.
Стапката на збор-тероризам е 5-10% на чист англиски аудио, 10-20% на бучен или акцентиран аудио. Големите варијанти на истата архитектура се многу подобри во тешките случаи — избираат поголеми кога аудиото е грубо.
Да — секој сегмент вклучува временски знаци за почеток/ крај. Изнеси го како SRT или VTT и мапата на времето директно на твоето видео.
ElevenLabs STT е премиум транскрипциски мотор. Околу ~500–1,500 жетони во минута аудио. $1 = 750.000 жетони.
MP3, WAV, M4A, FLAC, OGG, плус видео (MP4, MOV, WebM) — го вадиме аудиото. Макс. 500 MB на качување. Подолги датотеки? Подели со / audio/cut/ или користете / v1/stt/ batch /.
Дијаризацијата на звучникот е посебен пасс — вклучи го „диаризирај“ на /transcribe /. ElevenLabs STT раководи со транскрипцијата; дијаризирање етикети на секој сегмент со спикер 1 / Speaker 2 / etc.
Да — /batch/ прифаќа папка од аудио датотеки. Секој транскрипт спаѓа во / account /?tab=историја со оригиналното име на име. За зачувување на папки- дрво користете API.
Да — ВРАќа JSON со текст + сегменти + временски знаци на нивото на збор. /api/ има целосна референца.
Самодомаќините модели чуваат аудио на нашите GPU; премиум поминуваат со DPA. Аудио се избришува по споделуваниот прозорец (24h anon, 7d потпишано). Не тренираме на вашите влези.
Да — Free.ai даваат комерцијална употреба на транскрипти.
Факторот во реално време е приближно 0,05–0,2× — 60-минутен транскрипт за подемисија за 3–12 минути. Премиум моделите често завршуваат побрзо. Користете го копчето за да го затворите ливчето.