Wizper (Whisper v3)
Free.ai
·
stt
·
~500 Token pro minute
D'Fréijoer ass d'Joer vum 5. bis den 15. D'Spill ass op 3D-Grafiken baséiert, déi mat 50% (oder 100% wann et méi wéi 500 Säiten sinn) eropgeluede kënne ginn.
Iwwer API benotzen
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/wizper","audio_url":"https://..."}'
Dokumentatioun
API Schlëssel
Häufig gestallte Froen
Wizper (Whisper v3) transkribéiert gesot Audio an Text. Laden eng MP3, WAV, M4A oder Videodatei erop an Wizper (Whisper v3) gëtt déi vollstänneg Transkriptioun plus optional SRT/VTT Ënnertitelen mat Zäitstempelen zréck.
Wizper (Whisper v3) behandelt Dutzende vu Sproochen — Whisper-Famill Modeller decken 90+, Parakeet deckt ~25, aner variéieren. Wielt "Auto-detect" oder spezifizéiert d'Sprooch fir déi héchst Genauegkeet.
D'Stëmme vun de 5000 bis 10.000 Leit, déi an der éischter Hallschent vum Joer 2016 an der Stad Lëtzebuerg gehalen goufen, waren op d'mannst 100 % korrekt, an d'Stëmme vun de 5000 bis 10.000 Leit, déi an der zweeter Hallschent vum Joer 2016 an der Stad Lëtzebuerg gehalen goufen, waren op d'mannst 100 % korrekt.
Ja — all Segment enthält Start-/Ennzäitstempelen. Exportéiert als SRT oder VTT an d'Zäit gëtt direkt op Äre Video gesat.
D'Spill ass eng 3D-Spill, déi op engem 1:1-Grafik-Modell vun 1:100.000 baséiert.
MP3, WAV, M4A, FLAC, OGG, plus Video (MP4, MOV, WebM) — mir extrahéieren den Audio. Max 500 MB pro Upload. Länger Dateien? Split mat /audio/cut/ oder benotzt /v1/stt/batch/.
D'Sprooch ass eng vun de wichtegsten a wichtegsten Aspekter vun der Literatur, an d'Literatur ass eng vun de wichtegsten Aspekter vun der Gesellschaft. /i/ gëtt als /i/ fonnt.
Ja — /batch/ akzeptéiert en Ordner mat Audiodateien. All Transkriptioun fält an /account/?tab=history mat dem urspréngleche Dateinamen. Fir d'Erhale vum Ordnerbaum benotzt d'API.
D'Sprooch ass eng vun de gréisste Sproochen op der Welt. /tʃ/ gëtt als /tʃ/ ausgeschwat, /tʃ/ gëtt als /tʃ/ ausgeschwat, /tʃ/ gëtt als /tʃ/ ausgeschwat, /tʃ/ gëtt als /tʃ/ ausgeschwat.
Self-hosted Modeller halen Audio op eise GPUen; Premium passéieren duerch mat engem DPA. Audio gëtt no dem Share-Fenster geléist (24h anon, 7d angemeldet). Mir trainéieren net op Är Inputen.
Ja — Free.ai erlaabt eng kommerziell Benotzung vun Transkriptiounen. Dir braucht d'Recht op den Audio deen Dir erofgelueden hutt (Äert eege Material, lizenzéiert Material oder Inhalt mat Zoustëmmung).
Echtzäitfaktor ass ongeféier 0,05-0,2× — e 60-Minuten-Podcast gëtt an 3-12 Minutten transkritéiert. Premium Modeller sinn dacks méi séier fäerdeg. Benotzt d'Knäppchen "Queue" fir den Tab ze schließen.