Fal Speech-to-Text
Free.ai
·
stt
·
~500 tokens per minute
Fal Speech-to-Text a söz-mətn modeli-dir. Dış modellər vasitəsilə yönləndirilir — ~500 tokenləri Dəqiqədə (50% markup upstream cost üzərində).
API vasitəsilə istifadə et
OpenAI-ya uyğun REST API. Açar yaradın və bu modeli saniyələr ərzində çağırın.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API sənədləşdirilməsi
API Açarı
Tez-tez Sorulan Sual
Fal Speech-to-Text səsi mətnə çevirir. MP3, WAV, M4A və ya video fayl yükləyin və Fal Speech-to-Text bütün transkripti və əlavə olaraq vaxt damğalı SRT/VTT subtitrlərini geri qaytarır.
Fal Speech-to-Text bir çox dilləri dəstəkləyir - Whisper-family modelləri 90+, Parakeet modelləri ~25, digərləri isə dəyişir. Ən yüksək dəqiqlik üçün "avtomatik aşkarla"nı seçin və ya dili göstərin.
Söz-xəta dərəcəsi təmiz ingilis səsi üçün 5-10%, səsli və ya aksentli səs üçün 10-20% təşkil edir. Aynı mimarinin böyük variantları ağır hallarda daha yaxşı işləyir - səsin tüklü olduğu zaman böyük variantları seçin.
Bəli — hər hissə başlanğıc/son vaxt damğalarını ehtiva edir. SRT və ya VTT olaraq ixrac et və vaxtlar videonuza doğrudan-düzgəcdən xəritələnəcək.
Fal Speech-to-Text premium transkripsiya mühərrikidir. Hər audio dəqiqəsi üçün ~500-1,500 token. $1 = 750,000 token.
MP3, WAV, M4A, FLAC, OGG, video (MP4, MOV, WebM) — səsi çıxarırıq. Yükləmə başına maksimum 500 MB. Daha uzun fayllar? /audio/cut/ ilə bölün ya da /v1/stt/batch/ istifadə edin.
Speaker diarization ayrı bir keçiddir — /transcribe/ üzərində "diarize"i işə salın. Fal Speech-to-Text transkripsiyanı idarə edir; diarization hər bir segmenti Speaker 1 / Speaker 2 / və s. ilə etiketləyir.
Bəli — /batch/ audio faylları olan qovluğu qəbul edir. Hər bir transkript orijinal fayl adı ilə /account/?tab=history-də yerləşir. Qovluq ağacının qorunması üçün API-ni istifadə edin.
Bəli — Audionuzu /v1/stt/transcribe/ ilə model="Fal Speech-to-Text" ilə POST edin. JSON mətn + hissə + söz səviyyəli vaxt damğaları ilə geri qaytarır. /api/ tam istinaddır.
Öz-özünə host edilən modellər səsi GPU-da saxlayır; premium modellər DPA ilə səsi ötürür. Səs paylaşma pəncərəsi bitdikdən sonra silinir (24 saat anonim, 7 gün qeydiyyat). Biz sizin daxil olmalarınızı öyrənmirik.
Bəli — Free.ai transkripsiyaların kommersiya istifadəsini təmin edir. Yüklədiyiniz səsin hüquqlarına ehtiyacınız var (öz qeydiniz, lisenziyalı material, ya da razılaşdırılmış məzmun).
Real vaxt faktoru təxminən 0.05-0.2× - 60 dəqiqəlik podcast 3-12 dəqiqədə transkriptləşir. Premium modellər tez-tez daha tez bitir. Səkməyi bağlamaq üçün növbə düyməsini istifadə edin.