faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 tokens per minute

Lascia calà un figghiu audio o vidìu, o incolla un URL sutta

~500 tokens per minute

faster-whisper large-v3 is a mudellu di sintesi vocali-versu-testu built by OpenAI / SYSTRAN. U più forti à Accurate transcription. Auto-ospitatu in Free.ai GPU - corre gratuitamente contr'à u vostru pool di token giornalieru (500 tokens à u minutu). Rilasciatu sottu MIT — usu cummerciale permessu in Free.ai.

Usare via API

API REST compatibili OpenAI. Genera una chiave è chiama stu mudellu in uni pochi di siconni.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'
Documentazione Otteni a chiave API

Dumande frequenti

faster-whisper large-v3 trascrivi l'audiu parlatu in testu. Carica un MP3, WAV, M4A, o un figghiu video è faster-whisper large-v3 riturna a trascrizzioni cumpleta più i sottotituli SRT/VTT opziunali cù timestamps.

faster-whisper large-v3 gestisci decine di lingue — i mudelli di a famiglia Whisper coprenu 90%, Parakeet coprenu ~25, altri varianu. Sceglite "auto-detect" o specificate a lingua pi a massimu accuratezza.

U tassu di erruri di parolla hè 5-10% in audio inglese pulitu, 10-20% in audio rumorosu o accentatu. Varianti grandi di a stessa architettura facenu significativamente megliu in casi duri - sceglite più grandi quandu l'audiu hè russu.

Sì — ogni segmentu cuntene l'indicazioni di l'ora di iniziu/fini. Esportà comu SRT o VTT è a mappatura di l'ora direttamente in u vostru video.

faster-whisper large-v3 corre nantu à i nostri propri GPU contru u vostru pool gratuitu ogni ghjornu prima; $ 5 → 200,000 tokens pagati dopu. Circa ~ 500 tokens per minutu.

MP3, WAV, M4A, FLAC, OGG, più video (MP4, MOV, WebM) — estraemu l'audiu. Max 500 MB per caricamentu. File più lunghi? Divide cù /audio/cut/ o usa /v1/stt/batch/.

A diarizazione di l'oratori hè un passaggiu separatu — attivate "diarize" in /transcribe/. faster-whisper large-v3 gestisci a trascrizzioni; a diarizazione etichetta ogni segmentu cu L'oratori 1 / L'oratori 2 / ecc.

Sì — /batch/ accitta na cartella di figghi audio. Ogni trascrizzioni finisci nta /account/?tab=history cu lu nomi di figghiu origiinali. Pi cunservari l'arburi di cartelli usa l'API.

Sì — POST u vostru audio à /v1/stt/transcribe/ cù model="faster-whisper large-v3". Ritorna JSON cù testu + segmenti + timestamp a livellu di parolla. /api/ hà a riferenza piena.

I mudelli auto-ospitati mantèninu l'audiu supra a nostra GPU; i mudelli premium passanu cu un DPA. L'audiu si cancia dopu a finestra di cunnizzioni (24 ore anònimu, 7 ghjorni di cunnessione). Noi nun ci addestramu supra i vostri input.

Sì — Free.ai cunzenti l'usu cummerciali di li trascrizzioni. Avete bisognu di li diritti di l'audiu ca caricate (a vostra registrazioni, materiali cun licenza, o cuntinutu cu cunsensu).

U fatturi di tempu reale hè approssimativamente 0.05–0.2× — un podcast di 60 minuti trasscrivi in 3–12 minuti. I mudelli Premium spessu finiscinu più veloci. Usate u buttone di coda per chiudiri a scheda.

Amuri Free.ai? Dì i vostri amichi!

Vota sta pàggina