faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 znaki na minute

Przesuń plik audio lub wideo, lub wklej URL poniżej

~500 znaki na minute

faster-whisper large-v3 jest a model mowy do tekstu zbudowany przez OpenAI / SYSTRAN. Najsilniejszy w Accurate transcription. Samodzielnie umieszczony na Free.ai GPU – biegnie wolny od codziennego zbiornika żetonów (500 žetonów za minutę). Uwolnione pod {licence} — użytkowanie handlowe dozwolone na Free.ai.

Użyj przez API

Kompatybilny z OpenAI REST API. Generuj klucz i zadzwoń po ten model w sekundach.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'
Dokumentacja API Pobierz klucz API

Często zadawane pytania

faster-whisper large-v3 transcribe audio w tekst. Wyślij MP3, WAV, M4A, lub plik wideo i faster-whisper large-v3 zwraca pełną transkrypcję plus opcjonalne napisy SRT/VTT z czasem.

faster-whisper large-v3 obsługuje dziesiątki języków — Whisper-rodzinne modele obejmują 90+, Parakeet pokrywa ~25, inne różnią się. Wybierz "autodetekcję" lub określ język dla najwyższej dokładności.

Wskaźnik błędów jest 5–10% na czystym angielskim audio, 10–20% na głośnym lub akcentowanym audio. Duże warianty tej samej architektury mają sensownie lepszy wpływ na trudne przypadki — wybierz większe, gdy dźwięk jest surowy.

Tak — każdy segment obejmuje czas start/end. Eksportować jako SRT lub VTT i mapę czasów bezpośrednio do swojego wideo.

faster-whisper large-v3 biegnie najpierw na własnych GPU w stosunku do codziennego bezpłatnego basenu; $5 → 200 000 zapłaconych żetonów po tym. Około ~500 żetonów na minutę.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — wyciągamy dźwięk. Max 500 MB na wysłanie. Długiej pliki? Rozdzielić z /audio/cut/ lub użyć /v1/stt/batch /.

Dializacja głośnika jest odrębnym przekroczeniem – włączanie "diarize" na /transcribek/. faster-whisper large-v3 obsługuje transkrypcję; etykiety diaryzacyjne każdego segmentu za pomocą głośnika 1 / głośnika 2 / itd.

Tak — /batch/ akceptuje folder plików audio. Każdy transkrypt wyląduje w /account /?tab=history z oryginalnym nazwą pliku. Do zachowania folderów- drewna używaj API.

Tak — POST audio do /v1/stt/transcribe/ z modelem="faster-whisper large-v3". Zwraca JSON z tekstem + segmenty + czasopisma na poziomie słowa. /api / ma pełne odniesienie.

Samodzielne modele trzymają dźwięk na naszych GPU; premium przejść z DPA. Audio jest usuwane po okienku share-okien (24h anon, 7d podpisany). Nie trenujemy na wejściach.

Tak — Free.ai przyznaje komercyjne wykorzystanie transkryptów. Potrzebujesz praw do wysłanego audio (własny nagranie, licencjonowany materiał lub zawartość z zgodą).

Faktor w czasie rzeczywistym wynosi około 0,05–0,2× — 60 minutowy transkrypt podcastu w ciągu 3–12 minut. Modele premium często kończy się szybciej. Użyj przycisku kolejki, aby zamknąć zakładkę.

Love this tool? Share it!

Oszacuj tę stronę