ElevenLabs STT
Free.ai
·
stt
·
~500 tags per minute
ElevenLabs STT is a Модель синтезу мовлення з тексту. Routed through external models — ~500 tokens на хвилинуunit synonyms for matching user input (50% markup over upstream cost).
Використовувати через API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
Документація з API
Отримати ключ API
Часті запитання
ElevenLabs STT trancuts вимовлений звуковий файл в текст. Вивантажити субтитри MP3, WAV, M4A або відеофайл і _ ElevenLabs STT _ повертає повний запис та необов' язкові субтитри SRT/ VTTT з часовими штампами.
ElevenLabs STT handles dozens of languages — Whisper-family models cover 90+, Parakeet covers ~25, others vary. Pick "auto-detect" or specify the language for highest accuracy.
Word-error rate is 5–10% on clean English audio, 10–20% on noisy or accented audio. Large variants of the same architecture do meaningfully better on hard cases — pick larger when the audio is rough.
Так, ♫ Кожен відрізок містить часові штампи початку/ завершення. Експортується як STRT або VTT і карти часу безпосередньо на ваше відео.
ElevenLabs STT is a premium transcription engine. About ~500–1,500 tokens per minute of audio. $1 = 750,000 tokens.
MP3, WAV, M4A, FLAC, OGG, плюс відео (MP4, MOV, WebM) ми витягуємо звуковий файл. Макс. 500 МБ на вивантаження. Довші файли? Розділити за допомогою / audio/cut / або використовувати / v1/ st/ batch /.
Speaker diarization is a separate pass — toggle "diarize" on /transcribe/. ElevenLabs STT handles the transcription; diarization labels each segment with Speaker 1 / Speaker 2 / etc.
Так, } / batch/ приймає теку звукових файлів. Кожна з тек трансляцій у / account /? tab=історій з початковою назвою файла. Для збереження теки- дерева використовуйте API.
Yes — POST your audio to /v1/stt/transcribe/ with model="ElevenLabs STT". Returns JSON with text + segments + word-level timestamps. /api/ has the full reference.
Самоавтомні моделі зберігають звукові дані у наших GPU; внесокний прохід за допомогою DPA. Звук буде вилучено після вікна спільного ресурсу (24h anon, 7d підписаний- in). Ми не тренуємо ваші вхідні дані.
Так, Free.ai дає комерційне використання трансляцій. Вам потрібні права на вивантажений звук (ваш власний запис, ліцензований матеріал або контент за згодою).
Real-time factor is roughly 0.05–0.2× — a 60-minute podcast transcribes in 3–12 minutes. Premium models often finish faster. Use the queue button to close the tab.