Wizper (Whisper v3)
Free.ai
·
stt
·
~500 tokens pr. minute
Wizper (Whisper v3) er {articletale- til- tekst- model}. Rutet gennem eksterne modeller ~{tpm_tokens} pr. minut (50% markup over opstrøms omkostninger).
Brug via API
OpenAI-kompatibel REST API. Generer en nøgle og ring til denne model på få sekunder.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/wizper","audio_url":"https://..."}'
API- dokumentation
Hent API- nøgle
Ofte stillede spørgsmål
Wizper (Whisper v3) transskriberer talt lyd til tekst. Upload en MP3, WAV, M4A eller videofil og Wizper (Whisper v3) returnerer den fulde udskrift plus valgfri SRT / VTT undertekster med tidsstempler.
Wizper (Whisper v3) håndterer snesevis af sprog Whisper-familiemodeller dækker 90+, Parakeet dækker ~25, andre varierer. Vælg "auto-detektere" eller angive sproget for højeste nøjagtighed.
Word-error sats er 5!10% på ren engelsk lyd, 10!20% på støjende eller accentet lyd. Store varianter af den samme arkitektur gør meningsfuldt bedre på hårde sager plukke større, når lyden er ru.
Ja! Hvert segment omfatter start / slut tidsstempler. Eksporter som SRT eller VTT og gange kortet direkte på din video.
Wizper (Whisper v3) er en premium transskription motor. Om ~ 500 ~ 1.500 tokens per minute of audio. $ 1 = 750.000 tokens.
MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) Vi udtrækker lyden. Max 500 MB per upload. Længere filer? Split med /audio/cut / eller brug /v1/stt/batch /.
Speaker diarization er en separat pass ~ skifte "diarize" på / transcribe /. Wizper (Whisper v3) håndterer transskription; diarisering etiketter hvert segment med højttaler 1 / højttaler 2 / etc.
Ja! /batch/ accepterer en mappe med lydfiler. Hver udskrift lander i /account/?tab=historie med det oprindelige filnavn. For mappe- træ bevaring bruge API.
Ja! Indsæt din lyd til /v1/stt/transcribe/ med model="Wizper (Whisper v3)". Returnerer JSON med tekst + segmenter + ordniveau tidsstempler. /api/ har den fulde reference.
Selvværd modeller holde lyd på vores GPU'er; premium passere igennem med en DPA. Lyd slettes efter share-vinduet (24h anon, 7d sign-in). Vi træner ikke på dine indgange.
Ja! Free.ai giver kommerciel brug af udskrifter. Du har brug for rettigheder til den lyd, du uploadede (din egen optagelse, licenseret materiale, eller indhold med samtykke).
Real-time faktor er ca. 0.05 [.05] 0.2× ~ en 60-minutters podcast transcribes i 3! 12 minutter. Premium modeller ofte afslutte hurtigere. Brug kø-knappen til at lukke fanebladet.