faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 tokens per minute

Letakkan fail audio atau video, atau tampal URL di bawah

~500 tokens per minute

faster-whisper large-v3 adalah a model ucapan-ke-teks yang dibina oleh OpenAI / SYSTRAN. Terkuat di Accurate transcription. Dihost sendiri pada Free.ai GPU — berjalan percuma terhadap kolam token harian anda (500 tokens setiap minit). Dikeluarkan di bawah MIT — penggunaan komersial dibenarkan pada Free.ai.

Guna melalui API

API REST serasi OpenAI. Janakan kekunci dan panggil model ini dalam beberapa saat.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'
Dokumentasi API Dapatkan Kekunci API

Soalan Lazim

faster-whisper large-v3 mentranskripsikan audio yang diucapkan ke dalam teks. Muat naik fail MP3, WAV, M4A, atau video dan faster-whisper large-v3 mengembalikan transkripsi penuh plus subtitel SRT/VTT pilihan dengan setem masa.

faster-whisper large-v3 mengendalikan berpuluh-puluh bahasa — Whisper-keluarga model meliputi 90+, Parakeet meliputi ~25, yang lain bervariasi. Pilih "auto-kesan" atau nyatakan bahasa untuk ketepatan tertinggi.

Kadar ralat perkataan ialah 5–10% pada audio Inggeris bersih, 10–20% pada audio bising atau beraksent. Varian besar dari arsitektur yang sama lebih baik pada kes sukar — pilih yang lebih besar apabila audio kasar.

Ya — setiap segmen termasuk setem masa mula/akhir. Eksport sebagai SRT atau VTT dan peta masa terus ke video anda.

faster-whisper large-v3 berjalan pada GPU kami sendiri terhadap kolam percuma harian anda pertama; $5 → 200,000 token dibayar selepas itu. Sekitar ~500 token per minit.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — kami mengekstrak audio. Maksimum 500 MB per muat naik. Fail lebih panjang? Pisahkan dengan /audio/cut/ atau gunakan /v1/stt/batch/.

Diarizasi pembicara adalah laluan berasingan — togol "diarize" pada /transcribe/. faster-whisper large-v3 mengendalikan transkripsi; diarizasi melabel setiap segmen dengan Pembicara 1 / Pembicara 2 / dll.

Ya — /batch/ menerima folder fail audio. Setiap transkripsi akan berada dalam /account/?tab=history dengan nama fail asal. Untuk pemeliharaan pepohon folder gunakan API.

Ya — POST audio anda ke /v1/stt/transcribe/ dengan model="faster-whisper large-v3". Kembalikan JSON dengan teks + segmen + setem masa aras-perkataan. /api/ mempunyai rujukan penuh.

Model sendiri-hosting menyimpan audio pada GPU kami; premium lalu melalui dengan DPA. Audio dipadam selepas tetingkap-kongsi (24h anon, 7d log-in). Kami tidak melatih pada input anda.

Ya — Free.ai memberi kebenaran penggunaan komersial transkripsi. Anda perlukan hak audio yang anda muat naik (rekaman anda sendiri, bahan berlesen, atau kandungan dengan kebenaran).

Faktor masa nyata adalah kira-kira 0.05–0.2× — podcast 60 minit ditranskripsikan dalam 3–12 minit. Model premium biasanya selesai lebih cepat. Guna butang baris gilir untuk menutup tab.

Love this tool? Share it!

Nilaikan halaman ini