Fal Speech-to-Text

Free.ai · stt · ~500 tokens per minute

Audio yüklə

Audio və ya video faylı at ya da URL-ni aşağıya yapışdır

~500 tokens per minute

GPU-larda pulsuz işləyir. Yenilə Fal Speech-to-Text →

Fal Speech-to-Text a söz-mətn modeli-dir. Dış modellər vasitəsilə yönləndirilir — ~500 tokenləri Dəqiqədə (50% markup upstream cost üzərində).

API vasitəsilə istifadə et

OpenAI-ya uyğun REST API. Açar yaradın və bu modeli saniyələr ərzində çağırın.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'

API sənədləşdirilməsi API Açarı

Bənzər Modellər

ElevenLabs STT

Wizper (Whisper v3)

Bütün modelləri axtar →

Tez-tez Sorulan Sual

Fal Speech-to-Text səsi mətnə çevirir. MP3, WAV, M4A və ya video fayl yükləyin və Fal Speech-to-Text bütün transkripti və əlavə olaraq vaxt damğalı SRT/VTT subtitrlərini geri qaytarır.

Fal Speech-to-Text bir çox dilləri dəstəkləyir - Whisper-family modelləri 90+, Parakeet modelləri ~25, digərləri isə dəyişir. Ən yüksək dəqiqlik üçün "avtomatik aşkarla"nı seçin və ya dili göstərin.

Söz-xəta dərəcəsi təmiz ingilis səsi üçün 5-10%, səsli və ya aksentli səs üçün 10-20% təşkil edir. Aynı mimarinin böyük variantları ağır hallarda daha yaxşı işləyir - səsin tüklü olduğu zaman böyük variantları seçin.

Bəli — hər hissə başlanğıc/son vaxt damğalarını ehtiva edir. SRT və ya VTT olaraq ixrac et və vaxtlar videonuza doğrudan-düzgəcdən xəritələnəcək.

Fal Speech-to-Text premium transkripsiya mühərrikidir. Hər audio dəqiqəsi üçün ~500-1,500 token. $1 = 750,000 token.

MP3, WAV, M4A, FLAC, OGG, video (MP4, MOV, WebM) — səsi çıxarırıq. Yükləmə başına maksimum 500 MB. Daha uzun fayllar? /audio/cut/ ilə bölün ya da /v1/stt/batch/ istifadə edin.

Speaker diarization ayrı bir keçiddir — /transcribe/ üzərində "diarize"i işə salın. Fal Speech-to-Text transkripsiyanı idarə edir; diarization hər bir segmenti Speaker 1 / Speaker 2 / və s. ilə etiketləyir.

Bəli — /batch/ audio faylları olan qovluğu qəbul edir. Hər bir transkript orijinal fayl adı ilə /account/?tab=history-də yerləşir. Qovluq ağacının qorunması üçün API-ni istifadə edin.

Bəli — Audionuzu /v1/stt/transcribe/ ilə model="Fal Speech-to-Text" ilə POST edin. JSON mətn + hissə + söz səviyyəli vaxt damğaları ilə geri qaytarır. /api/ tam istinaddır.

Öz-özünə host edilən modellər səsi GPU-da saxlayır; premium modellər DPA ilə səsi ötürür. Səs paylaşma pəncərəsi bitdikdən sonra silinir (24 saat anonim, 7 gün qeydiyyat). Biz sizin daxil olmalarınızı öyrənmirik.

Bəli — Free.ai transkripsiyaların kommersiya istifadəsini təmin edir. Yüklədiyiniz səsin hüquqlarına ehtiyacınız var (öz qeydiniz, lisenziyalı material, ya da razılaşdırılmış məzmun).

Real vaxt faktoru təxminən 0.05-0.2× - 60 dəqiqəlik podcast 3-12 dəqiqədə transkriptləşir. Premium modellər tez-tez daha tez bitir. Səkməyi bağlamaq üçün növbə düyməsini istifadə edin.

Fal Speech-to-Text

API vasitəsilə istifadə et

Bənzər Modellər

Tez-tez Sorulan Sual

Fal Speech-to-Text nə edir?

Fal Speech-to-Text neçə dil dəstəkləyir?

Fal Speech-to-Text nə qədər dəqiqdir?

Fal Speech-to-Text zaman damğaları daxildirmi?

Fal Speech-to-Text-in bir dəqiqəlik qiyməti nə qədərdir?

Fal Speech-to-Text-ə hansı səs formatlarını yükləyə bilərəm?

Fal Speech-to-Text fərqli danışanları müəyyən edə bilərmi?

Fal Speech-to-Text ilə paketli transkript yaza bilərəmmi?

Fal Speech-to-Text üçün API varmı?

Fal Speech-to-Text ilə transkript yazdığım zaman məxfilik nədir?

Fal Speech-to-Text çıxarışı kommersiya istifadəsi üçün təhlükəsizdir?

Fal Speech-to-Text nə qədər vaxt aparır?

10,000 Pulsuz Token

30K pulsuz token/gün!

Daha çox istəyirsiniz?