Fal Speech-to-Text
Free.ai
·
stt
·
~500 tokens per minute
Fal Speech-to-Text is a konuşma-metinde model. Dış modellerden yönlendirildi — ~500 tokenleri dakikada (%50'lik bir fiyatlama).
API üzerinden kullan
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API belgelendirmesi
API Anahtarını Al
Sıkça Sorulan Sorular
Fal Speech-to-Text sesli konuşmaları metin haline çevirir. Bir MP3, WAV, M4A veya video dosyası yükleyin ve Fal Speech-to-Text tam metin ve zaman damgalı seçenek SRT/VTT altyazılarını geri verir.
Fal Speech-to-Text düzinelerce dilde çalışabilir — Whisper-aile modelleri 90+, Parakeet ~25, diğerleri değişkendir. En yüksek doğruluk için "otomatik tespit"i seçin veya dili belirtin.
Sözcük hata oranı temiz İngilizce ses üzerinde %5-10, gürültülü veya aksanlı ses üzerinde %10-20'dir.Aynı mimarinin büyük varyantları sert durumlarda anlamlı şekilde daha iyidir - ses sert olduğunda daha büyük seç.
Evet — her bölüm başlangıç/son zaman damgalarını içerir. SRT veya VTT olarak ihraç edin ve zamanlar doğrudan videonuza kaydedilir.
Fal Speech-to-Text bir premium transkripsiyon motorudur. Sesin dakika başına yaklaşık ~500-1,500 token'ı. $1 = 750,000 token.
MP3, WAV, M4A, FLAC, OGG, video (MP4, MOV, WebM) — sesleri çıkarıyoruz. Yükleme başına en fazla 500 MB. Daha uzun dosyalar? /audio/cut/ ile bölün veya /v1/stt/batch/ kullanın.
Konuşmacı diarization ayrı bir geçiş — /transcribe/ üzerinde "diarize"yi değiştirin. Fal Speech-to-Text transkripi yönetir; diarization her segmenti Konuşmacı 1 / Konuşmacı 2 / vs ile etiketler.
Evet — /batch/ ses dosyalarının bir dizinini kabul eder. Her bir transkrip orijinal dosya adı ile /account/?tab=history'ye düşer. Dizin ağacının korunması için API'yi kullanın.
Evet — Sesinizi /v1/stt/transcribe/'e model="Fal Speech-to-Text" ile POST edin. JSON ile metin + segmentler + kelime seviyesi zaman damgaları ile geri döndürür. /api/ tam referansa sahiptir.
Kendine hizmet veren modellerde ses GPU'larımızda kalır; premium modellerde DPA ile geçer. Ses paylaşma penceresinden sonra silinir (24 saat anon, 7 gün giriş). Girişleriniz üzerinde eğitim yapmayız.
Evet — Free.ai ticari kullanım için kopyaları kabul eder. Yüklediğiniz ses için haklara ihtiyacınız vardır (kendi kayıtlarınız, lisanslı materyaller veya rıza ile içerik).
Gerçek zaman faktörü yaklaşık 0.05–0.2× — 60 dakikalık bir podcast 3–12 dakikada transkribe edilir. Premium modelleri genellikle daha hızlı biter. Sekmeyi kapatmak için kuyruk düğmesini kullanın.