faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 simboliai minute

Iškelti garsą

Numeskite garso ar vaizdo failą arba įklijuokite URL žemiau

~500 simboliai minute

faster-whisper large-v3 yra a kalbinis modelis sukurtas OpenAI / SYSTRAN. Stipriausi Accurate transcription. Savarankiškas Free.ai GPU – bėga nemokamai nuo savo kasdienių žetonų baseinas ({tpm__markes} per minutę). Išleista pagal MIT – komercinis naudojimas leidžiamas Free.ai.

Naudoti per API

OpenAI suderinama REST API. Generuokite raktą ir paskambinkite šiam modeliui per kelias sekundes.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'

API dokumentacija Gauti API raktą

Panašūs modeliai

ElevenLabs STT

Fal Speech-to-Text

Wizper (Whisper v3)

Naršyti visus modelius →

Dažnai užduodami klausimai

faster-whisper large-v3 transcribes spoken audio into text. Upload an MP3, WAV, M4A, or video file and faster-whisper large-v3 returns the full transcript plus optional SRT/VTT subtitles with timestamps.

faster-whisper large-v3 hacks dešimtys kalbų — Whisper-šeimos modeliai apima 90+, Parakeet cover ~25, kiti skiriasi. Pasirinkite "auto-definiciją" arba nurodyti kalbą, kad būtų pasiektas didžiausias tikslumas.

Žodžių klaidų lygis yra 5-10% ant švaraus anglų garso, 10-20% triukšmingas ar akcentuotas garso. Dideli tos pačios architektūros variantai prasmingai geriau kietais atvejais — pasirinkti didesnį, kai garso yra grubus.

Taip — kiekvienas segmentas apima pradžios ir (arba) pabaigos žymes. Eksportuoti kaip SRT arba VTT ir laikas žemėlapis tiesiai į savo vaizdo įrašą.

faster-whisper large-v3 veikia mūsų pačių GPU prieš savo kasdienį nemokamą baseinas pirmą; $5 → 200,000 mokama žetonų po to. Apie ~500 žetonų per minutę.

MP3, WAV, M4A, FLAC, OGG, plius video (MP4, MOV, WebM) — mes ištraukiame garsą. Maks. 500 MB už įkeltą. Ilgesni failai? Split with /audio/cut/ or use /v1/stt/partch/.

Garsiakalbio diarizacija yra atskiras leidimas — perjungti "dializuoti" į / transkripcija/. faster-whisper large-v3 tvarko transkripciją; Dializės etiketes kiekviename segmente su Garsiakalbis 1 / Garsiakalbis 2 / ir tt

Taip — /partch/ priima aplanką garso failų. Kiekvienas stenogramos failas / paskyra /?tab=istorija su originalu failo pavadinimu. Aplanko išsaugojimui naudoti API.

Taip — Padėkite garsą į /v1/stt/tractor/ su modeliu="faster-whisper large-v3". Grįžta JSON su tekstu + segmentai + žodžio lygio žymos. /api/ turi visą nuorodą.

Savarankiški modeliai išlaikyti garso mūsų GPU; premium perduoti per su DPA. Audio yra ištrintas po akcijų-window (24h anon, 7d prisijungė). Mes ne mokyti jūsų įvesties.

Taip — Free.ai suteikia komercinį transkriptų naudojimą. Jums reikia teisių įkeltą garsą (savo įrašymo, licencijuotos medžiagos ar turinio su sutikimu).

Realaus laiko faktorius yra maždaug 0,05-0,2× – 60 minučių podcast transliuojamas per 3–12 minučių. Pirminiai modeliai dažnai baigiasi greičiau. Norėdami uždaryti kortelę, naudokite eilės mygtuką.

faster-whisper large-v3

Naudoti per API

Panašūs modeliai

Dažnai užduodami klausimai

Ką veikia faster-whisper large-v3?

How many languages does faster-whisper large-v3 support?

Kaip tiksliai yra faster-whisper large-v3?

Ar faster-whisper large-v3įtraukia žymes?

Kiek kainuoja per minutę faster-whisper large-v3?

Kokius garso formatus galiu įkelti į faster-whisper large-v3?

Can faster-whisper large-v3 identify different speakers?

Ar galima perrašyti seriją faster-whisper large-v3?

Ar yra API faster-whisper large-v3?

Ką apie privatumą, kai aš transliuoju su faster-whisper large-v3?

Is faster-whisper large-v3 output safe for commercial use?

Kiek laiko faster-whisper large-v3?

Gauti 10 000 nemokamai žetonai

Palaukite — gaukite 10K nemokamus žetonus!

Nori daugiau?