Fal Speech-to-Text
Free.ai
·
stt
·
~500 tokens per minute
Fal Speech-to-Text is a model swara-ka-teks. Ing basa Inggris, 100% (100%) iku tegesé "100%" lan "100%" iku tegesé "100%" utawa "100%".
Nggunakake liwat API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
Dokumen
Njupuk Kunci API
Pitakon kang asring diajukake
Fal Speech-to-Text ngrekam swara kang diucapaké dadi teks. Ngunduh file MP3, WAV, M4A, utawa video lan Fal Speech-to-Text bakal mbalekaké rekaman lengkap ditambah karo subtitle SRT/VTT kang bisa dipilih karo timestamp.
Fal Speech-to-Text ngontrol puluhan basa — Whisper-family model cover 90+, Parakeet cover ~25, liyane beda. Pilih "auto-detect" utawa nyetel basa kanggo akurasi paling dhuwur.
Kados ta: 5-10% saking wangun basa Inggris ingkang bersih, 10-20% saking wangun basa Inggris ingkang noisy utawi dipun-aksen. Varian ingkang ageng saking arsitektur ingkang sami saged dipun-aksen kanthi saé ing kasus-kasus ingkang susah.
Ya — saben segmen ngemot stempel wektu wiwitan/akhiran. Eksport minangka SRT utawa VTT lan peta wektu langsung menyang video sampeyan.
Ing taun 2009, 1000 wong kang dikonfirmasi tilar donya amarga kanker payudara, lan 1500 wong tilar donya amarga kanker paru-paru.
MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — kita ngekstrak audio. Max 500 MB saben upload. File luwih dawa? Split karo /audio/cut/ utawa nggunakake /v1/stt/batch/.
Ing basa Inggris, tembung "translation" (translasi) iku tegesé "translasi" lan "translation" iku tegesé "translasi" utawa "translasi" lan "translation" iku tegesé "translasi".
Ya — /batch/ nampa folder saka file audio. Saben transcript teka ing /account/?tab=history karo jeneng file asli. Kanggo perlindungan folder-tree gunakake API.
Tembung "A" iku tembung kang asalé saka basa Latin lan tegesé "a" utawa "a-" (a- iku huruf pertama tembung "a" lan "-um" iku huruf pisanan tembung "a-um").
Model self-hosted nyimpen audio ing GPU kita; premium ngliwati karo DPA. Audio dipasak sawisé jendela-share (24 jam anon, 7 dina mlebu). Kita ora latihan ing input sampeyan.
Ya — Free.ai nyedhiyani panggunaan komersial transkripsi. Sampeyan butuh hak kanggo audio sing sampeyan unggah (rekaman dhewe, bahan lisensi, utawa isi kanthi persetujuan).
Faktor wektu nyata kira-kira 0.05–0.2× — podcast 60 menit ditranskripsi ing 3–12 menit. Model Premium asring rampung luwih cepet. Gunakake tombol gulungan kanggo nutup tab.