Fal Speech-to-Text

Free.ai · stt · ~500 бирдик minute

Аудио же видео файлды алып салуу же URL дарегин төмөндөгү жерге коюу

~500 бирдик minute
Runs free on our GPUs. Upgrade for Fal Speech-to-Text →

Fal Speech-to-Text - a сүйлөмдөн-текстке моделдөө. Сырткы моделдер аркылуу багытталган — ~500 токендери мүнөтүнө (50% маркировка жогорудагы баадан).

API аркылуу колдонуу

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
Документация API ачкычын алуу

Кайсы убакта суроолор берилет

Fal Speech-to-Text сүйлөмдү аудиого которуп берет. MP3, WAV, M4A же видеофайлды жүктөп алыңыз, Fal Speech-to-Text толук транскрипт жана кошумча SRT/VTT субтитрлерин убакыт белгилери менен кайтарат.

Fal Speech-to-Text бир нече тилдер менен иштей алат — Whisper-family моделдери 90+, Parakeet ~25, башкалары ар кандай. "авто-обнаружение" тандаңыз же эң жогорку тактык үчүн тилдин аталышын белгилеңиз.

Сөз каталардын деңгээли таза англис аудиосунда 5-10%, ызы-чуу же акцент менен жазылган аудиодо 10-20%. Ошол эле архитектуранын чоң варианттары оор учурларда жакшы иштешет — аудио катуу болгондо чоңураак вариантты тандаңыз.

Ооба — ар бир сегментте башталыш/аяктоо убактысы бар. Экспорттоо SRT же VTT форматында, убакытты түз эле видеого киргизүү.

Fal Speech-to-Text - бул премиум транскрипциялоо тутуму. Аудио мүнөтүнө ~500-1,500 жетон. $1 = 750,000 жетон.

MP3, WAV, M4A, FLAC, OGG, плюс видео (MP4, MOV, WebM) — аудиону чыгарабыз. Максимум 500 МБ жүктөп алууга. Узак файлдар? /audio/cut/ менен бөлүп чыгаруу же /v1/stt/batch/ колдонуп чыгаруу.

Диализ - бул өзүнчө процесс — /transcribe/-де "diarize" дегенди тандаңыз. Fal Speech-to-Text транскрипцияны аткарат; диализ ар бир сегментке сүйлөгөн 1 / сүйлөгөн 2 / ж.б. деген белгини берет.

Да — /batch/ аудиофайлдардын папкасын кабыл алат. Ар бир транскрипция /account/?tab=history каталогуна оригиналдуу файл аты менен түшөт. Папка-дарагын сактоо үчүн API колдонулат.

Да — аудиону /v1/stt/transcribe/ менен POST кылыңыз, model="Fal Speech-to-Text". JSON текст + сегменттер + сөз деңгээлиндеги убакыт белгилери менен кайтарылат. /api/ толук шилтемени камтыйт.

Автономдук моделдер аудиону биздин GPU-да сакташат; премиум моделдер DPA менен өткөрүшөт. Аудио бөлүшүү терезеси аяктагандан кийин өчүрүлөт (24 саат анонимдүү, 7 күндүк кирүү). Биз сиздин киргизүүңүздү тренировка кылбайбыз.

Да — Free.ai транскрипттерди коммерциялык максатта колдонууга уруксат берет. Сизге жүктөп алган аудионун укуктары керек (өзүңүздүн жаздыруу, лицензияланган материалдар же уруксат берилген мазмун).

Реальный коэффициент приблизительно 0.05-0.2× — 60-минутный подкаст транскрибируется в 3-12 минутах. Премиум модели обычно заканчиваются быстрее. Используйте кнопку очереди, чтобы закрыть заголовок.

Free.aiди сүйөсүңбү? Досторуңа айт!

Бул барактын баасын берүү