ElevenLabs STT
Free.ai
·
stt
·
~500 Токенҳо дар як minute
ElevenLabs STT аст a Модули гуфтугӯ ба матн. Дар ин ҷо барои ифодаи 100% (100% = 100%) аз 100% (100% = 100%) истифода бурда мешавад.
Истифода аз API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
Ҳуҷҷатҳои API
Гирифтани калиди API
Саволҳои пурсидашуда
ElevenLabs STT садои гуфташударо ба матн табдил медиҳад. Файли MP3, WAV, M4A ё видеоро бор кунед ва ElevenLabs STT матни пурраро ба иловаи зерсарлавҳаҳои SRT/VTT бо нишонаҳои вақт бармегардонад.
ElevenLabs STT даҳҳо забонро идора мекунад — Whisper-модели оила 90+-ро дар бар мегирад, Parakeet ~25-ро дар бар мегирад, дигарон гуногунанд. "муайянкунии худкор"-ро интихоб кунед ё барои дақиқии баландтарин забони муайяншударо муайян кунед.
Дарозии хатои калима 5-10% дар аудиои англисии тоза, 10-20% дар аудиои шуғлнок ё бо акцент. Вариантҳои калони ҳамон сохтори ба таври назаррас беҳтар дар ҳолатҳои душвор - интихоби калонтар, вақте ки аудио сахт аст.
Бале — ҳар як сегмент дорои аломатҳои вақти оғоз/охири мебошад. Содирот ҳамчун SRT ё VTT ва харитаҳои вақти бевосита ба видеои шумо.
ElevenLabs STT муҳаррики транскрипсияи premium мебошад. Дар бораи ~500-1,500 токенҳо дар як дақиқаи аудио. $1 = 750,000 токенҳо.
MP3, WAV, M4A, FLAC, OGG, ва видео (MP4, MOV, WebM) — мо аудиоро бароварда мебарорем. Ҳадди аксар 500 МБ барои ҳар боркунӣ. Файлҳои дарозтар? Бо /audio/cut/ ҷудо кунед ё /v1/stt/batch/-ро истифода баред.
Диаграммаи 1.1: Тақсимшавии аҳолӣ дар ноҳияҳои вилояти Суғд (аз рӯи синну сол) Диаграммаи 1.2: Тақсимшавии аҳолӣ дар ноҳияҳои вилояти Суғд (аз рӯи синну сол)
Да — /batch/ каталоги файлҳои аудиоиро қабул мекунад. Ҳар як нусхаи нусхаи нусха дар /account/?tab=history бо номи файли аслӣ ҷойгир мешавад. Барои нигоҳдории дарахти каталог API-ро истифода баред.
Да — POST аудиои худро ба /v1/stt/transcribe/ бо модел="ElevenLabs STT". JSON-ро бо матн + қисмҳо + аломати вақт дар сатҳи калима бармегардонад. /api/ истиноди пурра дорад.
Модельҳои худидомадор аудиоро дар GPU-ҳои мо нигоҳ медоранд; Premium бо DPA мегузарад. Аудио баъди тирезаи муштараксозии (24 соат бе қайд, 7 рӯз ворид шудан) нест карда мешавад. Мо дар бораи воридоти шумо машқ намекунем.
Бале — Free.ai иҷозат медиҳад, ки истифодаи тиҷоратии нусхаҳои нусхаҳои нусхаҳоро истифода баред. Шумо бояд ҳуқуқи аудиоро, ки шумо бор кардаед (записьи худ, маводи иҷозатномадор ё мундариҷа бо иҷозатнома) дошта бошед.
Фактори вақти воқеӣ тақрибан 0.05-0.2× аст — 60-дақиқаӣ подкаст дар 3-12 дақиқа нусхабардорӣ мешавад. Намунаҳои Premium аксар вақт зудтар ба итмом мерасанд. Барои пӯшидани ҷадвалбандӣ тугмаи навбатро истифода баред.