Fal Speech-to-Text
Free.ai
·
stt
·
~500 token per minute
Fal Speech-to-Text is a model ucapan-ke-teks. Rute melalui model eksternal --{t} token per menit (50% markup atas biaya hulu).
Gunakan melalui API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
Dokumentasi API
Dapatkan Kunci API
Pertanyaan yang Sering Diajukan
Fal Speech-to-Text transcribes spoken audio into text. Upload an MP3, WAV, M4A, or video file and Fal Speech-to-Text returns the full transcript plus optional SRT/VTT subtitles with timestamps.
Fal Speech-to-Text handles dozens of languages — Whisper-family models cover 90+, Parakeet covers ~25, others vary. Pick "auto-detect" or specify the language for highest accuracy.
Tingkat Word-error adalah 5U10% pada audio bahasa Inggris bersih, 10°20% pada audio yang bising atau aksen. varian besar dari arsitektur yang sama melakukan lebih baik pada kasus-kasus keras memilih lebih besar ketika audio kasar.
Ekspor SRT atau VTT dan peta waktu langsung ke video Anda.
Fal Speech-to-Text is a premium transcription engine. About ~500–1,500 tokens per minute of audio. $1 = 750,000 tokens.
MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) kita mengekstrak audio. Max 500 MB per upload.
Speaker diarization is a separate pass — toggle "diarize" on /transcribe/. Fal Speech-to-Text handles the transcription; diarization labels each segment with Speaker 1 / Speaker 2 / etc.
Ya /batch/menerima folder berkas audio. Setiap transkrip mendarat di /account/?tab=cerita dengan nama berkas asli. Untuk pelestarian folder-tree menggunakan API.
Ya POST audio Anda ke /v1/stttt/trancribe/ dengan model=Fal Speech-to-Text". Mengembalikan JSON dengan teks + segmen + tanda waktu tingkat kata. /api/ memiliki referensi penuh.
Model berhost diri menjaga audio pada GPU kami; premium lulus melalui DPA. Audio dihapus setelah jendela berbagi (24h anon, 7d signed-in). Kami tidak melatih input anda.
Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).
Faktor real-time adalah kira-kira 0.05.2× ° 60 menit transncribes podcast dalam 31 menit. model Premium sering selesai lebih cepat. Gunakan tombol antrian untuk menutup tab.