Fal Speech-to-Text

Free.ai · stt · ~500 tokens per minute

Ses Yükle

Bir ses veya video dosyasını bırakın veya URL'yi aşağıya yapıştırın

~500 tokens per minute

GPU'larımızda ücretsiz çalışıyor. Üst düzey Fal Speech-to-Text →

Fal Speech-to-Text is a konuşma-metinde model. Dış modellerden yönlendirildi — ~500 tokenleri dakikada (%50'lik bir fiyatlama).

API üzerinden kullan

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'

API belgelendirmesi API Anahtarını Al

Similar models

ElevenLabs STT

Wizper (Whisper v3)

Browse all models →

Sıkça Sorulan Sorular

Fal Speech-to-Text sesli konuşmaları metin haline çevirir. Bir MP3, WAV, M4A veya video dosyası yükleyin ve Fal Speech-to-Text tam metin ve zaman damgalı seçenek SRT/VTT altyazılarını geri verir.

Fal Speech-to-Text düzinelerce dilde çalışabilir — Whisper-aile modelleri 90+, Parakeet ~25, diğerleri değişkendir. En yüksek doğruluk için "otomatik tespit"i seçin veya dili belirtin.

Sözcük hata oranı temiz İngilizce ses üzerinde %5-10, gürültülü veya aksanlı ses üzerinde %10-20'dir.Aynı mimarinin büyük varyantları sert durumlarda anlamlı şekilde daha iyidir - ses sert olduğunda daha büyük seç.

Evet — her bölüm başlangıç/son zaman damgalarını içerir. SRT veya VTT olarak ihraç edin ve zamanlar doğrudan videonuza kaydedilir.

Fal Speech-to-Text bir premium transkripsiyon motorudur. Sesin dakika başına yaklaşık ~500-1,500 token'ı. $1 = 750,000 token.

MP3, WAV, M4A, FLAC, OGG, video (MP4, MOV, WebM) — sesleri çıkarıyoruz. Yükleme başına en fazla 500 MB. Daha uzun dosyalar? /audio/cut/ ile bölün veya /v1/stt/batch/ kullanın.

Konuşmacı diarization ayrı bir geçiş — /transcribe/ üzerinde "diarize"yi değiştirin. Fal Speech-to-Text transkripi yönetir; diarization her segmenti Konuşmacı 1 / Konuşmacı 2 / vs ile etiketler.

Evet — /batch/ ses dosyalarının bir dizinini kabul eder. Her bir transkrip orijinal dosya adı ile /account/?tab=history'ye düşer. Dizin ağacının korunması için API'yi kullanın.

Evet — Sesinizi /v1/stt/transcribe/'e model="Fal Speech-to-Text" ile POST edin. JSON ile metin + segmentler + kelime seviyesi zaman damgaları ile geri döndürür. /api/ tam referansa sahiptir.

Kendine hizmet veren modellerde ses GPU'larımızda kalır; premium modellerde DPA ile geçer. Ses paylaşma penceresinden sonra silinir (24 saat anon, 7 gün giriş). Girişleriniz üzerinde eğitim yapmayız.

Evet — Free.ai ticari kullanım için kopyaları kabul eder. Yüklediğiniz ses için haklara ihtiyacınız vardır (kendi kayıtlarınız, lisanslı materyaller veya rıza ile içerik).

Gerçek zaman faktörü yaklaşık 0.05–0.2× — 60 dakikalık bir podcast 3–12 dakikada transkribe edilir. Premium modelleri genellikle daha hızlı biter. Sekmeyi kapatmak için kuyruk düğmesini kullanın.

Fal Speech-to-Text

API üzerinden kullan

Similar models

Sıkça Sorulan Sorular

Fal Speech-to-Text ne yapıyor?

Fal Speech-to-Text kaç dil destekliyor?

Fal Speech-to-Text ne kadar doğru?

Fal Speech-to-Text zaman damgaları içeriyor mu?

Fal Speech-to-Text dakika başına ne kadara mal oluyor?

Fal Speech-to-Text'e hangi ses formatlarını yükleyebilirim?

Fal Speech-to-Text farklı konuşanları tanımlayabilir mi?

Fal Speech-to-Text ile grup olarak transkrip yapabilir miyim?

Fal Speech-to-Text için bir API var mı?

Fal Speech-to-Text ile yazdığımda mahremiyetime ne olacak?

Fal Speech-to-Text çıktısı ticari kullanım için güvenli mi?

Fal Speech-to-Text ne kadar sürer?

10.000 ücretsiz token al

Bekle — 10K Bedava Token Al!

Daha fazlasını ister misin?