faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 token mỗi minute

Thổi một tập tin âm thanh hoặc video, hoặc dán một URL dưới đây

~500 token mỗi minute

faster-whisper large-v3 là a mô hình nói- thành- văn bản được xây dựng bởi OpenAI / SYSTRAN. Strongest tại Accurate transcription. Tự lưu trữ trên Free.ai GPU — chạy miễn phí đối với hồ token hàng ngày của bạn (500 tokens mỗi phút). Phát hành dưới MIT — sử dụng thương mại được phép trên Free.ai.

Dùng qua API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'
Tài liệu API Lấy khóa API

Câu hỏi thường gặp

faster-whisper large-v3 chuyển âm thanh nói thành văn bản. Tải lên một tập tin MP3, WAV, M4A, hoặc video và faster-whisper large-v3 sẽ trả lại bản dịch đầy đủ cộng thêm phụ đề SRT/VTT tùy chọn với dấu thời gian.

faster-whisper large-v3 xử lý hàng chục ngôn ngữ — Whisper-family models cover 90+, Parakeet covers ~25, others vary. Choose "auto-detect" or specify the language for highest accuracy.

Tỷ lệ lỗi từ là 5–10% trên âm thanh tiếng Anh sạch, 10–20% trên âm thanh ồn ào hoặc có giọng điệu. Các biến thể lớn của cùng một kiến trúc làm tốt hơn đáng kể trên các trường hợp khó — chọn lớn hơn khi âm thanh thô.

Có — mỗi đoạn bao gồm dấu thời gian bắt đầu/ kết thúc. Xuất dạng SRT hoặc VTT và bản đồ thời gian trực tiếp vào đoạn phim của bạn.

faster-whisper large-v3 chạy trên GPU của chúng tôi trước khi vào bể miễn phí hàng ngày của bạn; $5 → 200,000 token trả sau đó. Khoảng ~500 token mỗi phút.

MP3, WAV, M4A, FLAC, OGG, cộng với video (MP4, MOV, WebM) — chúng tôi sẽ trích xuất âm thanh. Tối đa 500 MB mỗi lần tải lên. Tập tin dài hơn? Phân tách bằng /audio/cut/ hoặc dùng /v1/stt/batch/.

Diarization của người nói là một bước riêng biệt — bật/tắt "diarize" trên /transcribe/. faster-whisper large-v3 xử lý việc phiên dịch; diarization đánh dấu mỗi phân đoạn với Người nói 1 / Người nói 2 / v.v.

Có — /batch/ chấp nhận thư mục của các tập tin âm thanh. Mỗi bản ghi sẽ được lưu trong /account/?tab=history với tên tập tin gốc. Để bảo tồn cây thư mục, dùng API.

Truy cập ngày 1 tháng 1 năm 2011.  ^ Yes — POST your audio to /v1/stt/transcribe/ with model="faster-whisper large-v3". Returns JSON with text + segments + word-level timestamp.

Các mô hình tự chủ giữ âm thanh trên GPU của chúng tôi; cao cấp truyền qua với DPA. Âm thanh bị xóa sau cửa sổ chia sẻ (24h anon, 7d đăng nhập). Chúng tôi không huấn luyện vào đầu vào của bạn.

Có — Free.ai cho phép sử dụng thương mại các bản ghi âm. Bạn cần quyền cho âm thanh bạn tải lên (bản ghi của bạn, tài liệu được cấp phép, hoặc nội dung được chấp thuận).

Hiệu suất thời gian thực là khoảng 0.05–0.2× — một podcast 60 phút được phiên âm trong 3–12 phút. Các mẫu Premium thường kết thúc nhanh hơn. Dùng nút xếp hàng để đóng thẻ.

Love this tool? Share it!

Đánh giá trang này