faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 token mỗi minute

Tải lên âm thanh

Thổi một tập tin âm thanh hoặc video, hoặc dán một URL dưới đây

~500 token mỗi minute

faster-whisper large-v3 là a mô hình nói- thành- văn bản được xây dựng bởi OpenAI / SYSTRAN. Strongest tại Accurate transcription. Tự lưu trữ trên Free.ai GPU — chạy miễn phí đối với hồ token hàng ngày của bạn (500 tokens mỗi phút). Phát hành dưới MIT — sử dụng thương mại được phép trên Free.ai.

Dùng qua API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'

Tài liệu API Lấy khóa API

Similar models

ElevenLabs STT

Fal Speech-to-Text

Wizper (Whisper v3)

Browse all models →

Câu hỏi thường gặp

faster-whisper large-v3 chuyển âm thanh nói thành văn bản. Tải lên một tập tin MP3, WAV, M4A, hoặc video và faster-whisper large-v3 sẽ trả lại bản dịch đầy đủ cộng thêm phụ đề SRT/VTT tùy chọn với dấu thời gian.

faster-whisper large-v3 xử lý hàng chục ngôn ngữ — Whisper-family models cover 90+, Parakeet covers ~25, others vary. Choose "auto-detect" or specify the language for highest accuracy.

Tỷ lệ lỗi từ là 5–10% trên âm thanh tiếng Anh sạch, 10–20% trên âm thanh ồn ào hoặc có giọng điệu. Các biến thể lớn của cùng một kiến trúc làm tốt hơn đáng kể trên các trường hợp khó — chọn lớn hơn khi âm thanh thô.

Có — mỗi đoạn bao gồm dấu thời gian bắt đầu/ kết thúc. Xuất dạng SRT hoặc VTT và bản đồ thời gian trực tiếp vào đoạn phim của bạn.

faster-whisper large-v3 chạy trên GPU của chúng tôi trước khi vào bể miễn phí hàng ngày của bạn; $5 → 200,000 token trả sau đó. Khoảng ~500 token mỗi phút.

MP3, WAV, M4A, FLAC, OGG, cộng với video (MP4, MOV, WebM) — chúng tôi sẽ trích xuất âm thanh. Tối đa 500 MB mỗi lần tải lên. Tập tin dài hơn? Phân tách bằng /audio/cut/ hoặc dùng /v1/stt/batch/.

Diarization của người nói là một bước riêng biệt — bật/tắt "diarize" trên /transcribe/. faster-whisper large-v3 xử lý việc phiên dịch; diarization đánh dấu mỗi phân đoạn với Người nói 1 / Người nói 2 / v.v.

Có — /batch/ chấp nhận thư mục của các tập tin âm thanh. Mỗi bản ghi sẽ được lưu trong /account/?tab=history với tên tập tin gốc. Để bảo tồn cây thư mục, dùng API.

Truy cập ngày 1 tháng 1 năm 2011. ^ Yes — POST your audio to /v1/stt/transcribe/ with model="faster-whisper large-v3". Returns JSON with text + segments + word-level timestamp.

Các mô hình tự chủ giữ âm thanh trên GPU của chúng tôi; cao cấp truyền qua với DPA. Âm thanh bị xóa sau cửa sổ chia sẻ (24h anon, 7d đăng nhập). Chúng tôi không huấn luyện vào đầu vào của bạn.

Có — Free.ai cho phép sử dụng thương mại các bản ghi âm. Bạn cần quyền cho âm thanh bạn tải lên (bản ghi của bạn, tài liệu được cấp phép, hoặc nội dung được chấp thuận).

Hiệu suất thời gian thực là khoảng 0.05–0.2× — một podcast 60 phút được phiên âm trong 3–12 phút. Các mẫu Premium thường kết thúc nhanh hơn. Dùng nút xếp hàng để đóng thẻ.

faster-whisper large-v3

Dùng qua API

Similar models

Câu hỏi thường gặp

faster-whisper large-v3 làm gì?

faster-whisper large-v3 hỗ trợ bao nhiêu ngôn ngữ?

faster-whisper large-v3 chính xác đến đâu?

faster-whisper large-v3 có bao gồm dấu thời gian không?

faster-whisper large-v3 có giá bao nhiêu một phút?

Tôi có thể tải lên định dạng âm thanh nào cho faster-whisper large-v3?

faster-whisper large-v3 có thể nhận dạng những người nói khác nhau không?

Tôi có thể chuyển ngữ hàng loạt với faster-whisper large-v3 không?

Có một API cho faster-whisper large-v3 không?

Còn về sự riêng tư khi tôi viết với faster-whisper large-v3?

Liệu kết quả faster-whisper large-v3 có an toàn cho mục đích thương mại không?

faster-whisper large-v3 mất bao lâu?

Lấy 10.000 token miễn phí

Chờ đã — Cầm 10K token miễn phí!

Muốn thêm nữa không?