Wizper (Whisper v3)
Free.ai
·
stt
·
~500 polletter per minute
Wizper (Whisper v3) är {artikel} {kategori}. Körs genom externa modeller — ~500 polletter per minut (50 % uppräkning över uppströmskostnad).
Använd via API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/wizper","audio_url":"https://..."}'
API-dokumentation
Hämta API- nyckel
Vanliga frågor
Wizper (Whisper v3) transkriberar talat ljud till text. Ladda upp en MP3, WAV, M4A eller videofil och Wizper (Whisper v3) returnerar den fullständiga utskriften plus valfria SRT/VTT text med tidsstämplar.
Wizper (Whisper v3) hanterar dussintals språk — Whisper-familj modeller täcker 90+, Parakeet täcker ~25, andra varierar. Välj "auto-detect" eller ange språket för högsta noggrannhet.
Word-terror är 5–10% på rent engelskt ljud, 10-20% på bullriga eller accentuerade ljud. Stora varianter av samma arkitektur gör meningsfullt bättre på hårda fall - plocka större när ljudet är grov.
Ja — varje segment inkluderar start/slut timestamps. Exportera som SRT eller VTT och gånger kartan direkt till din video.
Wizper (Whisper v3) är en premium transkription motor. Om ~500-1 500 tokens per minut av ljud. $1 = 750.000 tokens.
MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) – vi extraherar ljudet. Max 500 MB per uppladdning. Längre filer? Dela med /audio/cut/ eller använd /v1/st/batch/.
Speaker diarization är ett separat pass — växla "diarize" på /transcribe /. Wizper (Whisper v3) hanterar transkriptionen; diarization etiketter varje segment med högtalare 1 / högtalare 2 / etc.
Ja — / batch/ accepterar en katalog med ljudfiler. Varje utskrift landar i / account/?tab= historia med det ursprungliga filnamnet. För arkivering av katalogträd använd API:et.
Ja — Skicka ditt ljud till /v1/st/transcribe/ med modell="Wizper (Whisper v3)". Returnerar JSON med text + segment + Word-level timestamps. /api/ har den fullständiga referensen.
Självvärdiga modeller håller ljud på våra GPUs; premium passera genom med en DPA. Ljud tas bort efter share-window (24h anon, 7d inloggad). Vi tränar inte på dina ingångar.
Ja — Free.ai beviljar kommersiell användning av utskrifter. Du behöver rättigheter till det ljud du laddat upp (din egen inspelning, licensierat material eller innehåll med samtycke).
Realtidsfaktorn är ungefär 0,05–0,2× — en 60-minuters podcast transkriberar i 3–12 minuter. Premium modeller ofta slutar snabbare. Använd köknappen för att stänga fliken.