Fal Speech-to-Text

Free.ai · stt · ~500 tokenuri per minute

Aruncă un fișier audio sau video, sau cotează o URL de mai jos

~500 tokenuri per minute
Fugi gratis pe GPU-urile noastre. Upgrade pentru Fal Speech-to-Text →

_ Îndreptat prin modele externe — ~500 token pe minut (50% de marcaj în raport cu costul amonte).

Utilizare prin API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
Documentare API Obține cheie API

Întrebări frecvente

Fal Speech-to-Text transcrie audio vorbit în text. Încarcă un fișier MP3, WAV, M4A sau video și Fal Speech-to-Text returnează transcripția completă plus subtitrarea opțională SRT/VTT cu timelor.

Fal Speech-to-Text handles dozens of languages — Whisper-family models cover 90+, Parakeet covers ~25, others vary. Pick "auto-detect" or specify the language for highest accuracy.

Rata de eroare a cuvântului este de 5–100% pe audio curat englez, 10–20% pe audio zgomotos sau accentuat. Variante mari ale aceleiași arhitecturi fac în mod semnificativ mai bine pe cazurile grele — alege mai mare atunci când audio este dur.

Da — fiecare segment include start/end timelor. Export ca SRT sau VTT și harta de timpuri direct pe video.

Fal Speech-to-Text este un motor de transcripție premium. Aproximativ ~500–1.500 tokens pe minut de audio. $1 = 750.000 tokens.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) - extragem audio. Max 500 MB pe încărcare. Fișiere mai lungi? Split cu /audio/cut/ sau folosirea /v1/stt/batch /.

Diarizarea speakerului este un pas separat — comutați "diarizarea" pe /transcribe /. Fal Speech-to-Text se ocupă de transcriere; etichete de diarizarea fiecare segment cu Speaker 1 / Speaker 2 / etc.

Da — /batch/ acceptă un dosar de fișiere audio. Fiecare transcriere de terenuri în /compte /?tab=historia cu numele de fișier original. Pentru conservarea dosarului-arbore utiliza API.

Da — POST audio dumneavoastră la /v1/stt/transcribe/ cu model="Fal Speech-to-Text". Returnează JSON cu text + segmente + fuste orare de word-level. /api/ are referință completă.

Modelele auto-gazdă păstrează audio pe GPU-urile noastre; premium trec prin cu un DPA. Audio este șterse după curent (24h anon, 7d semnat-in). Noi nu antrenăm pe intrarea dumneavoastră.

Da — Free.ai acordă utilizarea comercială a transcripcionelor. Ai nevoie de drepturi la audio pe care l-ai încărcat (înregistrarea propriu, material licențiat sau conținut cu consimțământul).

Factorul în timp real este de aproximativ 0,05–0.2× – un podcast de 60 de minute transcrie în 3–12 de minute. Modelele premium se termină adesea mai repede. Utilizați butonul de coadă pentru a închide tab.

Love this tool? Share it!

Ratați această pagină