Fal Speech-to-Text

Free.ai · stt · ~500 znaki na minute

Przesuń plik audio lub wideo, lub wklej URL poniżej

~500 znaki na minute
Bezpłatnie działa na naszych GPU. Uaktualnij dla Fal Speech-to-Text →

Fal Speech-to-Text is a model mowy do tekstu. Skierowane przez modele zewnętrzne — ~500 tokeny za minutę (50% markingu nad kosztami strumienia).

Użyj przez API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
Dokumentacja API Pobierz klucz API

Często zadawane pytania

Fal Speech-to-Text transcribe audio w tekst. Wyślij MP3, WAV, M4A, lub plik wideo i Fal Speech-to-Text zwraca pełną transkrypcję plus opcjonalne napisy SRT/VTT z czasem.

Fal Speech-to-Text obsługuje dziesiątki języków — Whisper-rodzinne modele obejmują 90+, Parakeet pokrywa ~25, inne różnią się. Wybierz "autodetekcję" lub określ język dla najwyższej dokładności.

Wskaźnik błędów jest 5–10% na czystym angielskim audio, 10–20% na głośnym lub akcentowanym audio. Duże warianty tej samej architektury mają sensownie lepszy wpływ na trudne przypadki — wybierz większe, gdy dźwięk jest surowy.

Tak — każdy segment obejmuje czas start/end. Eksportować jako SRT lub VTT i mapę czasów bezpośrednio do swojego wideo.

Fal Speech-to-Text jest silnikiem premium transkription. Około ~500–1,500 żetonów na minutę audio. $1 = 750 000 żetonów.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — wyciągamy dźwięk. Max 500 MB na wysłanie. Długiej pliki? Rozdzielić z /audio/cut/ lub użyć /v1/stt/batch /.

Dializacja głośnika jest odrębnym przekroczeniem – włączanie "diarize" na /transcribek/. Fal Speech-to-Text obsługuje transkrypcję; etykiety diaryzacyjne każdego segmentu za pomocą głośnika 1 / głośnika 2 / itd.

Tak — /batch/ akceptuje folder plików audio. Każdy transkrypt wyląduje w /account /?tab=history z oryginalnym nazwą pliku. Do zachowania folderów- drewna używaj API.

Tak — POST audio do /v1/stt/transcribe/ z modelem="Fal Speech-to-Text". Zwraca JSON z tekstem + segmenty + czasopisma na poziomie słowa. /api / ma pełne odniesienie.

Samodzielne modele trzymają dźwięk na naszych GPU; premium przejść z DPA. Audio jest usuwane po okienku share-okien (24h anon, 7d podpisany). Nie trenujemy na wejściach.

Tak — Free.ai przyznaje komercyjne wykorzystanie transkryptów. Potrzebujesz praw do wysłanego audio (własny nagranie, licencjonowany materiał lub zawartość z zgodą).

Faktor w czasie rzeczywistym wynosi około 0,05–0,2× — 60 minutowy transkrypt podcastu w ciągu 3–12 minut. Modele premium często kończy się szybciej. Użyj przycisku kolejki, aby zamknąć zakładkę.

Love this tool? Share it!

Oszacuj tę stronę