Fal Speech-to-Text
Free.ai
·
stt
·
~500 žetonov na minute
Fal Speech-to-Text is a model govora v besedilo. Pot prek zunanjih modelov – ~500 žetonov na minuto (50 % označevanja nad stroški nad tokom).
Uporaba prek API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
Dokumentacija API
Dobi ključ API
Pogosta vprašanja
Fal Speech-to-Text transcribes spoken audio into text. Upload an MP3, WAV, M4A, or video file and Fal Speech-to-Text returns the full transcript plus optional SRT/VTT subtitles with timestamps.
Fal Speech-to-Text upravlja na ducate jezikov – Whisper- družinski modeli pokrivajo 90+, Parakeet pokriva ~25, drugi se razlikujejo. Izberite "avtodetekcijo" ali navedite jezik za najvišjo natančnost.
Hitrost besedo-greh je 5–10% na čistem angleškem avdio, 10–20% na hrupnem ali naglasnem avdio. Velika različica iste arhitekture je smiselno boljša na trdih primerih – izberite večji, ko je zvok grob.
Da – vsak segment vključuje začetna/končna časovna oznaka. Izvozi kot SRT ali VTT in časovni zemljevid naravnost na vaš video.
Fal Speech-to-Text je premium transkription motor. Okrog ~500–1,500 žetonov na minuto avdio. $1 = 750.000 žetonov.
MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) – izvlečemo zvok. Max 500 MB na nalaganje. Datoteke daljši? Razdelite z /audio/cut/ ali uporabite /v1/stt/batch /.
Diarizacija zvočnika je ločena prepustnica – vklopite "diarize" na /transcribed /. Fal Speech-to-Text obvladuje prepis; dijarizacijska oznaka vsak segment z zvočnikom 1 / zvočnik 2 / itd.
Da – /batch/ sprejema mapo zvočnih datotek. Vsak transkript pristane v /account /?tab=history z izvirnim imenom datoteke. Za ohranjanje mape- drevo uporabite API.
Da – POST svoj zvok na /v1/stt/transcribe/ z modelom="Fal Speech-to-Text". Vrne JSON z besedilom + segmenti + časovne oznake na besedni ravni. /api / ima polno sklicevanje.
Samostojni modeli ohranjajo zvok na naših GPU; premium prehod z DPA. Audio se izbriše po delnem oknu (24h anon, 7d podpis-in). Ne treniramo na vaših vhodih.
Da – Free.ai dodeljuje komercialno uporabo transkriptov. Potrebujete pravice do avdio, ki ste ga naložili (svoje lastno snemanje, licencirano gradivo ali vsebino s soglasjem).
Faktor v realnem času je približno 0,05–0,2× – 60-minutni podcast transkripti v 3–12 minutah. Premium modeli pogosto končajo hitreje. Uporabite gumb za zapiranje zavihka.