Fal Speech-to-Text
Free.ai
·
stt
·
~500 tokenuri per minute
_ Îndreptat prin modele externe — ~500 token pe minut (50% de marcaj în raport cu costul amonte).
Utilizare prin API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
Documentare API
Obține cheie API
Întrebări frecvente
Fal Speech-to-Text transcrie audio vorbit în text. Încarcă un fișier MP3, WAV, M4A sau video și Fal Speech-to-Text returnează transcripția completă plus subtitrarea opțională SRT/VTT cu timelor.
Fal Speech-to-Text handles dozens of languages — Whisper-family models cover 90+, Parakeet covers ~25, others vary. Pick "auto-detect" or specify the language for highest accuracy.
Rata de eroare a cuvântului este de 5–100% pe audio curat englez, 10–20% pe audio zgomotos sau accentuat. Variante mari ale aceleiași arhitecturi fac în mod semnificativ mai bine pe cazurile grele — alege mai mare atunci când audio este dur.
Da — fiecare segment include start/end timelor. Export ca SRT sau VTT și harta de timpuri direct pe video.
Fal Speech-to-Text este un motor de transcripție premium. Aproximativ ~500–1.500 tokens pe minut de audio. $1 = 750.000 tokens.
MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) - extragem audio. Max 500 MB pe încărcare. Fișiere mai lungi? Split cu /audio/cut/ sau folosirea /v1/stt/batch /.
Diarizarea speakerului este un pas separat — comutați "diarizarea" pe /transcribe /. Fal Speech-to-Text se ocupă de transcriere; etichete de diarizarea fiecare segment cu Speaker 1 / Speaker 2 / etc.
Da — /batch/ acceptă un dosar de fișiere audio. Fiecare transcriere de terenuri în /compte /?tab=historia cu numele de fișier original. Pentru conservarea dosarului-arbore utiliza API.
Da — POST audio dumneavoastră la /v1/stt/transcribe/ cu model="Fal Speech-to-Text". Returnează JSON cu text + segmente + fuste orare de word-level. /api/ are referință completă.
Modelele auto-gazdă păstrează audio pe GPU-urile noastre; premium trec prin cu un DPA. Audio este șterse după curent (24h anon, 7d semnat-in). Noi nu antrenăm pe intrarea dumneavoastră.
Da — Free.ai acordă utilizarea comercială a transcripcionelor. Ai nevoie de drepturi la audio pe care l-ai încărcat (înregistrarea propriu, material licențiat sau conținut cu consimțământul).
Factorul în timp real este de aproximativ 0,05–0.2× – un podcast de 60 de minute transcrie în 3–12 de minute. Modelele premium se termină adesea mai repede. Utilizați butonul de coadă pentru a închide tab.