faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 tokens për minute

Lësho një file audio apo video, ose ngjite një URL më poshtë

~500 tokens për minute

faster-whisper large-v3 është a model nga-folja-në-tekst i ndërtuar nga OpenAI / SYSTRAN. Më i forti në Accurate transcription. Vetë-pritur në Free.ai GPUs — funksionon pa pagesë kundër pool-it të token-it të përditshëm (500 tokens për minutë). Licensuar nën MIT — përdorimi komercial i lejuar në Free.ai.

Përdorimi nëpërmjet API

API REST e përshtatshme me OpenAI. Gjenerati një kyç dhe thirreni këtë model në sekonda.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'
Dokumentimi i API Merr kyçin e API

Pyetje të shpeshta

faster-whisper large-v3 transkripton audion e folur në tekst. Ngarko një file MP3, WAV, M4A ose video dhe faster-whisper large-v3 kthen transkriptimin e plotë plus subtitrat opcionalë SRT/VTT me shenjat e kohës.

faster-whisper large-v3 trajton dhjetra gjuhë — Whisper-familjet e modeleve mbulojnë 90%, Parakeet mbulon ~25, të tjerat ndryshojnë. Zgjidh "auto-detect" ose specifiko gjuhën për saktësi më të lartë.

Norma e gabimit të fjalëve është 5-10% në audion e pastër anglisht, 10-20% në audion me zhurmë ose me theks. Variantet e mëdha të të njëjtës arkitekturë bëjnë më mirë në raste të vështira - zgjedh më të mëdha kur audio është i papërpunuar.

Po — çdo segment përfshin një shtyllë kohe fillimi/fundi. Eksporto si SRT ose VTT dhe kohët do të shfaqen drejtpërsëdrejti në video.

faster-whisper large-v3 shkon në GPU-të tona kundër pool-it tënd të përditshëm të lirë së pari; $5 → 200,000 token-ë të paguar pas kësaj. Rreth ~500 token-ë për minutë.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — nxjerrim audion. Maksimum 500 MB për ngarkim. File më të gjatë? Ndahet me /audio/cut/ ose përdor /v1/stt/batch/.

Diarizimi i folësit është një proces i veçantë — ndërroje "diarize" në /transcribe/. faster-whisper large-v3 trajton transkriptimin; diarization etiketon çdo segment me Folësi 1 / Folësi 2 / etj.

Po — /batch/ pranon një kartelë me file audio. Çdo transkriptim përfundon në /account/?tab=history me emrin origjinal të file. Për ruajtjen e degës së kartelës përdor API.

Po — POST audion tuaj në /v1/stt/transcribe/ me model="faster-whisper large-v3". Kthen JSON me tekst + segmente + timestamp në nivel fjalësh. /api/ ka referencën e plotë.

Modelet e vetë-hostuar mbajnë audion në GPU-të tona; premium kalojnë nëpërmjet me një DPA. Audio eleminohet pas dritares së ndarjes (24 orë anonim, 7 ditë hyrje). Ne nuk trajnojmë në input-in tuaj.

Po — Free.ai lejon përdorimin komercial të transkriptave. Ju duhen të drejtat e audios që keni ngarkuar (inxhinieria juaj, material i licencuar, ose përmbajtje me leje).

Faktori i kohës reale është rreth 0.05-0.2× — një podcast 60-minutësh transkribohet në 3-12 minuta. Modelet Premium zakonisht përfundojnë më shpejt. Përdor butonin e renditjes për të mbyllur skedën.

Të pëlqen Free.ai?

Vlerësoni këtë faqe