faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 simboliai minute

Numeskite garso ar vaizdo failą arba įklijuokite URL žemiau

~500 simboliai minute

faster-whisper large-v3 yra a kalbinis modelis sukurtas OpenAI / SYSTRAN. Stipriausi Accurate transcription. Savarankiškas Free.ai GPU – bėga nemokamai nuo savo kasdienių žetonų baseinas ({tpm__markes} per minutę). Išleista pagal MIT – komercinis naudojimas leidžiamas Free.ai.

Naudoti per API

OpenAI suderinama REST API. Generuokite raktą ir paskambinkite šiam modeliui per kelias sekundes.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'
API dokumentacija Gauti API raktą

Dažnai užduodami klausimai

faster-whisper large-v3 transcribes spoken audio into text. Upload an MP3, WAV, M4A, or video file and faster-whisper large-v3 returns the full transcript plus optional SRT/VTT subtitles with timestamps.

faster-whisper large-v3 hacks dešimtys kalbų — Whisper-šeimos modeliai apima 90+, Parakeet cover ~25, kiti skiriasi. Pasirinkite "auto-definiciją" arba nurodyti kalbą, kad būtų pasiektas didžiausias tikslumas.

Žodžių klaidų lygis yra 5-10% ant švaraus anglų garso, 10-20% triukšmingas ar akcentuotas garso. Dideli tos pačios architektūros variantai prasmingai geriau kietais atvejais — pasirinkti didesnį, kai garso yra grubus.

Taip — kiekvienas segmentas apima pradžios ir (arba) pabaigos žymes. Eksportuoti kaip SRT arba VTT ir laikas žemėlapis tiesiai į savo vaizdo įrašą.

faster-whisper large-v3 veikia mūsų pačių GPU prieš savo kasdienį nemokamą baseinas pirmą; $5 → 200,000 mokama žetonų po to. Apie ~500 žetonų per minutę.

MP3, WAV, M4A, FLAC, OGG, plius video (MP4, MOV, WebM) — mes ištraukiame garsą. Maks. 500 MB už įkeltą. Ilgesni failai? Split with /audio/cut/ or use /v1/stt/partch/.

Garsiakalbio diarizacija yra atskiras leidimas — perjungti "dializuoti" į / transkripcija/. faster-whisper large-v3 tvarko transkripciją; Dializės etiketes kiekviename segmente su Garsiakalbis 1 / Garsiakalbis 2 / ir tt

Taip — /partch/ priima aplanką garso failų. Kiekvienas stenogramos failas / paskyra /?tab=istorija su originalu failo pavadinimu. Aplanko išsaugojimui naudoti API.

Taip — Padėkite garsą į /v1/stt/tractor/ su modeliu="faster-whisper large-v3". Grįžta JSON su tekstu + segmentai + žodžio lygio žymos. /api/ turi visą nuorodą.

Savarankiški modeliai išlaikyti garso mūsų GPU; premium perduoti per su DPA. Audio yra ištrintas po akcijų-window (24h anon, 7d prisijungė). Mes ne mokyti jūsų įvesties.

Taip — Free.ai suteikia komercinį transkriptų naudojimą. Jums reikia teisių įkeltą garsą (savo įrašymo, licencijuotos medžiagos ar turinio su sutikimu).

Realaus laiko faktorius yra maždaug 0,05-0,2× – 60 minučių podcast transliuojamas per 3–12 minučių. Pirminiai modeliai dažnai baigiasi greičiau. Norėdami uždaryti kortelę, naudokite eilės mygtuką.

Like this tool? Share it!

Įvertinti šį puslapį