Fal Speech-to-Text
Free.ai
·
stt
·
~500 100 žetónov na minute
Fal Speech-to-Text je a Model premeny reči na text. Smerované cez externé modely — ~500 tokeny za minútu (50% marža nad nákladmi na vstupe).
Použitie cez API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
Dokumentácia API
Získať API kľúč
Často kladené otázky
Fal Speech-to-Text transcribes spoken audio into text. Upload an MP3, WAV, M4A, or video file and Fal Speech-to-Text returns the full transcript plus optional SRT/VTT subtitles with timestamps.
Fal Speech-to-Text zvláda desiatky jazykov — modely Whisper pokrývajú 90+, Parakeet pokrýva ~25, ostatné sa líšia.Zvoľte "auto-detect" alebo zadajte jazyk pre najvyššiu presnosť.
Miera chýb slov je 5-10% na čistom anglickom zvuku, 10-20% na hlučnom alebo akcentovanom zvuku.Veľké varianty rovnakej architektúry fungujú výrazne lepšie na tvrdých prípadoch - vyberte väčšie, keď je zvuk drsný.
Áno, každý segment obsahuje časové značky začiatku a konca.Exportujte ako SRT alebo VTT a priraďte časy priamo do videa.
Fal Speech-to-Text je prémiový prepisovací nástroj. Približne ~500-1,500 žetónov za minútu zvuku. $1 = 750,000 žetónov.
MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — extrahujeme audio. Max 500 MB na upload. Dlhšie súbory? Rozdeliť pomocou /audio/cut/ alebo použite /v1/stt/batch/.
Diarizácia hovoriacich je samostatný priechod — prepnite "diarize" na /transcribe/. Fal Speech-to-Text sa stará o prepis; diarizácia označuje každý segment ako Rečník 1 / Rečník 2 / atď.
Áno — /batch/ prijíma priečinok so zvukovými súbormi. Každý prepis skončí v /account/?tab=history s pôvodným názvom súboru. Pre zachovanie stromu priečinkov použite API.
Áno — POST svoj zvuk do /v1/stt/transcribe/ s modelom "Fal Speech-to-Text". Vráti JSON s textom + segmenty + časové značky na úrovni slov. /api/ má úplný odkaz.
Samohostiteľské modely ukladajú zvuk na naše GPU; prémiové modely prechádzajú cez DPA. Zvuk sa po uplynutí okna zdieľania (24 hodín anon, 7 dní prihlásenia) vymaže.
Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).
Faktor reálneho času je približne 0,05 – 0,2× – 60-minútový podcast sa prepíše za 3 – 12 minút. Prémiové modely často dokončia prepis rýchlejšie.