ElevenLabs STT
Free.ai
·
stt
·
~500 жетони по minute
ElevenLabs STT is a модел говора‐ у‐ текст. Routed through external models — ~500 tokens по минуту (50% markup over upstream cost).
Користи преко АПИ‐ а
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
АПИ документација
Добављање АПИ кључа
Често постављана питања
ElevenLabs STT transcribes spoken audio into text. Upload an MP3, WAV, M4A, or video file and ElevenLabs STT returns the full transcript plus optional SRT/VTT subtitles with timestamps.
ElevenLabs STT handles dozens of languages — Whisper-family models cover 90+, Parakeet covers ~25, others vary. Pick "auto-detect" or specify the language for highest accuracy.
Стапка речи- тероризма је 5–10% на чистом енглеском звуку, 10–20% на бучном или нагласљеном аудио. Велике варијанте исте архитектуре значајно боље раде на тешким случајевима — изаберите већи када је звук груб.
Да — сваки сегмент укључује датумске ознаке почетка и краја. Извези као СРТ или ВТТ и мапу пута директно на снимак.
ElevenLabs STT is a premium transcription engine. About ~500–1,500 tokens per minute of audio. $1 = 750,000 tokens.
MP3, WAV, M4A, FLAC, OGG, плус видео (MP4, MOV, WebM) — извлачимо аудио. Макс. 500 МБ по слању. Дужи фајлови? Поделите са / audio/cut/ или употребите / v1/stt/ batch /.
Дијаризација звучника је одвојен пролаз — укључите „ дијаризирај “ на /transcribed /. ElevenLabs STT управља транскрипцијом; дијаризационе ознаке сваког сегмента са спикером 1 / Speaker 2 / itd.
Да — /batch / прихвата фасциклу аудио фајлова. Сваки транскрипт слеће у / account /?tab=историју са изворним именом фајла. За одржавање фасцикле- дрвета користите АПИ.
Да — ВРАћа ЈСОН са текстом + сегмента + врх путања р› ијечи. /api / има пуну референцу.
Само- домаћински модели држе звук на нашим ГПУ‐ овима; премијум пролази са ДПА‐ ом. Аудио се обрише након прозора за д› ијељење (24х anon, 7d потписан). Ми не тренирамо на вашим улазима.
Да — Free.ai дозвољава комерцијалну коришћење транскрипта. Потребна су вам права на звук који сте убацили (власни снимак, лиценцирани материјал или садржај са пристанком).
Чинилац у реалном времену је отприлике 0,05–0,2× — 60-минутни транскриптор подемисије за 3‐ 12 минута. Премиум модели често завршавају брже. Користите дугме редоследа да затворите језичак.