Moonshine Base

Free.ai (self-hosted) · stt · ~500 token mỗi minute

Tải lên âm thanh

Thổi một tập tin âm thanh hoặc video, hoặc dán một URL dưới đây

~500 token mỗi minute

Moonshine Base là a mô hình nói- thành- văn bản được xây dựng bởi Useful Sensors. Strongest tại Low-latency live transcription, embedded devices.. Tự lưu trữ trên Free.ai GPU — chạy miễn phí đối với hồ token hàng ngày của bạn (500 tokens mỗi phút). Phát hành dưới MIT — sử dụng thương mại được phép trên Free.ai.

Dùng qua API

API REST tương thích OpenAI. Tạo một chìa khóa và gọi mô hình này trong vài giây.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"moonshine-base","audio_url":"https://..."}'

Tài liệu API Lấy khóa API

Mô hình tương tự

ElevenLabs STT

Fal Speech-to-Text

Wizper (Whisper v3)

Tìm kiếm tất cả các mẫu →

Câu hỏi thường gặp

Moonshine Base chuyển âm thanh nói thành văn bản. Tải lên một tập tin MP3, WAV, M4A, hoặc video và Moonshine Base sẽ trả lại bản dịch đầy đủ cộng thêm phụ đề SRT/VTT tùy chọn với dấu thời gian.

Moonshine Base xử lý hàng chục ngôn ngữ — Whisper-family models cover 90+, Parakeet covers ~25, others vary. Choose "auto-detect" or specify the language for highest accuracy.

Tỷ lệ lỗi từ là 5–10% trên âm thanh tiếng Anh sạch, 10–20% trên âm thanh ồn ào hoặc có giọng điệu. Các biến thể lớn của cùng một kiến trúc làm tốt hơn đáng kể trên các trường hợp khó — chọn lớn hơn khi âm thanh thô.

Có — mỗi đoạn bao gồm dấu thời gian bắt đầu/ kết thúc. Xuất dạng SRT hoặc VTT và bản đồ thời gian trực tiếp vào đoạn phim của bạn.

Moonshine Base chạy trên GPU của chúng tôi trước khi vào bể miễn phí hàng ngày của bạn; $5 → 200,000 token trả sau đó. Khoảng ~500 token mỗi phút.

MP3, WAV, M4A, FLAC, OGG, cộng với video (MP4, MOV, WebM) — chúng tôi sẽ trích xuất âm thanh. Tối đa 500 MB mỗi lần tải lên. Tập tin dài hơn? Phân tách bằng /audio/cut/ hoặc dùng /v1/stt/batch/.

Diarization của người nói là một bước riêng biệt — bật/tắt "diarize" trên /transcribe/. Moonshine Base xử lý việc phiên dịch; diarization đánh dấu mỗi phân đoạn với Người nói 1 / Người nói 2 / v.v.

Có — /batch/ chấp nhận thư mục của các tập tin âm thanh. Mỗi bản ghi sẽ được lưu trong /account/?tab=history với tên tập tin gốc. Để bảo tồn cây thư mục, dùng API.

Truy cập ngày 1 tháng 1 năm 2011. ^ Yes — POST your audio to /v1/stt/transcribe/ with model="Moonshine Base". Returns JSON with text + segments + word-level timestamp.

Các mô hình tự chủ giữ âm thanh trên GPU của chúng tôi; cao cấp truyền qua với DPA. Âm thanh bị xóa sau cửa sổ chia sẻ (24h anon, 7d đăng nhập). Chúng tôi không huấn luyện vào đầu vào của bạn.

Có — Free.ai cho phép sử dụng thương mại các bản ghi âm. Bạn cần quyền cho âm thanh bạn tải lên (bản ghi của bạn, tài liệu được cấp phép, hoặc nội dung được chấp thuận).

Hiệu suất thời gian thực là khoảng 0.05–0.2× — một podcast 60 phút được phiên âm trong 3–12 phút. Các mẫu Premium thường kết thúc nhanh hơn. Dùng nút xếp hàng để đóng thẻ.

Moonshine Base

Dùng qua API

Mô hình tương tự

Câu hỏi thường gặp

Moonshine Base làm gì?

Moonshine Base hỗ trợ bao nhiêu ngôn ngữ?

Moonshine Base chính xác đến đâu?

Moonshine Base có bao gồm dấu thời gian không?

Moonshine Base có giá bao nhiêu một phút?

Tôi có thể tải lên định dạng âm thanh nào cho Moonshine Base?

Moonshine Base có thể nhận dạng những người nói khác nhau không?

Tôi có thể chuyển ngữ hàng loạt với Moonshine Base không?

Có một API cho Moonshine Base không?

Còn về sự riêng tư khi tôi viết với Moonshine Base?

Liệu kết quả Moonshine Base có an toàn cho mục đích thương mại không?

Moonshine Base mất bao lâu?

Lấy 10.000 token miễn phí

Chờ đã — Cầm 10K token miễn phí!

Muốn thêm nữa không?