Fal Speech-to-Text

Free.ai · stt · ~500 simboliai minute

Numeskite garso ar vaizdo failą arba įklijuokite URL žemiau

~500 simboliai minute
Bėgam nemokamai prie mūsų GPU. Atnaujinti Fal Speech-to-Text →

Fal Speech-to-Text is a kalbinis modelis. Maršrutizuojama per išorinius modelius — ~{tpm_markes} per minutę(50 % žymėjimas ant pradinės kainos).

Naudoti per API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API dokumentacija Gauti API raktą

Dažnai užduodami klausimai

Fal Speech-to-Text transcribes spoken audio into text. Upload an MP3, WAV, M4A, or video file and Fal Speech-to-Text returns the full transcript plus optional SRT/VTT subtitles with timestamps.

Fal Speech-to-Text hacks dešimtys kalbų — Whisper-šeimos modeliai apima 90+, Parakeet cover ~25, kiti skiriasi. Pasirinkite "auto-definiciją" arba nurodyti kalbą, kad būtų pasiektas didžiausias tikslumas.

Žodžių klaidų lygis yra 5-10% ant švaraus anglų garso, 10-20% triukšmingas ar akcentuotas garso. Dideli tos pačios architektūros variantai prasmingai geriau kietais atvejais — pasirinkti didesnį, kai garso yra grubus.

Taip — kiekvienas segmentas apima pradžios ir (arba) pabaigos žymes. Eksportuoti kaip SRT arba VTT ir laikas žemėlapis tiesiai į savo vaizdo įrašą.

Fal Speech-to-Text yra premium transkripcijos variklis. Apie ~500-1 500 žetonų per minutę garso. $1 = 750.000 žetonų.

MP3, WAV, M4A, FLAC, OGG, plius video (MP4, MOV, WebM) — mes ištraukiame garsą. Maks. 500 MB už įkeltą. Ilgesni failai? Split with /audio/cut/ or use /v1/stt/partch/.

Garsiakalbio diarizacija yra atskiras leidimas — perjungti "dializuoti" į / transkripcija/. Fal Speech-to-Text tvarko transkripciją; Dializės etiketes kiekviename segmente su Garsiakalbis 1 / Garsiakalbis 2 / ir tt

Taip — /partch/ priima aplanką garso failų. Kiekvienas stenogramos failas / paskyra /?tab=istorija su originalu failo pavadinimu. Aplanko išsaugojimui naudoti API.

Yes — POST your audio to /v1/stt/transcribe/ with model="Fal Speech-to-Text". Returns JSON with text + segments + word-level timestamps. /api/ has the full reference.

Savarankiški modeliai išlaikyti garso mūsų GPU; premium perduoti per su DPA. Audio yra ištrintas po akcijų-window (24h anon, 7d prisijungė). Mes ne mokyti jūsų įvesties.

Taip — Free.ai suteikia komercinį transkriptų naudojimą. Jums reikia teisių įkeltą garsą (savo įrašymo, licencijuotos medžiagos ar turinio su sutikimu).

Realaus laiko faktorius yra maždaug 0,05-0,2× – 60 minučių podcast transliuojamas per 3–12 minučių. Pirminiai modeliai dažnai baigiasi greičiau. Norėdami uždaryti kortelę, naudokite eilės mygtuką.

Like this tool? Share it!

Įvertinti šį puslapį