Wizper (Whisper v3)
Free.ai
·
stt
·
~500 tokens për minute
Wizper (Whisper v3) është a model nga-folja-në-tekst. Përcaktuar nëpërmjet modeleve të jashtme — ~500 tokens për minutë (50% markup mbi koston e fillimit).
Përdorimi nëpërmjet API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/wizper","audio_url":"https://..."}'
Dokumentimi i API
Merr kyçin e API
Pyetje të shpeshta
Wizper (Whisper v3) transkripton audion e folur në tekst. Ngarko një file MP3, WAV, M4A ose video dhe Wizper (Whisper v3) kthen transkriptimin e plotë plus subtitrat opcionalë SRT/VTT me shenjat e kohës.
Wizper (Whisper v3) trajton dhjetra gjuhë — Whisper-familjet e modeleve mbulojnë 90%, Parakeet mbulon ~25, të tjerat ndryshojnë. Zgjidh "auto-detect" ose specifiko gjuhën për saktësi më të lartë.
Norma e gabimit të fjalëve është 5-10% në audion e pastër anglisht, 10-20% në audion me zhurmë ose me theks. Variantet e mëdha të të njëjtës arkitekturë bëjnë më mirë në raste të vështira - zgjedh më të mëdha kur audio është i papërpunuar.
Po — çdo segment përfshin një shtyllë kohe fillimi/fundi. Eksporto si SRT ose VTT dhe kohët do të shfaqen drejtpërsëdrejti në video.
Wizper (Whisper v3) është një motor i transkriptimit premium. Rreth ~500-1,500 token për minutë audio. $1 = 750,000 token.
MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — nxjerrim audion. Maksimum 500 MB për ngarkim. File më të gjatë? Ndahet me /audio/cut/ ose përdor /v1/stt/batch/.
Diarizimi i folësit është një proces i veçantë — ndërroje "diarize" në /transcribe/. Wizper (Whisper v3) trajton transkriptimin; diarization etiketon çdo segment me Folësi 1 / Folësi 2 / etj.
Po — /batch/ pranon një kartelë me file audio. Çdo transkriptim përfundon në /account/?tab=history me emrin origjinal të file. Për ruajtjen e degës së kartelës përdor API.
Po — POST audion tuaj në /v1/stt/transcribe/ me model="Wizper (Whisper v3)". Kthen JSON me tekst + segmente + timestamp në nivel fjalësh. /api/ ka referencën e plotë.
Modelet e vetë-hostuar mbajnë audion në GPU-të tona; premium kalojnë nëpërmjet me një DPA. Audio eleminohet pas dritares së ndarjes (24 orë anonim, 7 ditë hyrje). Ne nuk trajnojmë në input-in tuaj.
Po — Free.ai lejon përdorimin komercial të transkriptave. Ju duhen të drejtat e audios që keni ngarkuar (inxhinieria juaj, material i licencuar, ose përmbajtje me leje).
Faktori i kohës reale është rreth 0.05-0.2× — një podcast 60-minutësh transkribohet në 3-12 minuta. Modelet Premium zakonisht përfundojnë më shpejt. Përdor butonin e renditjes për të mbyllur skedën.