Fal Speech-to-Text

Free.ai · stt · ~500 token mỗi minute

Tải lên âm thanh

Thổi một tập tin âm thanh hoặc video, hoặc dán một URL dưới đây

~500 token mỗi minute

Chạy miễn phí trên GPU của chúng tôi. Cập nhật cho Fal Speech-to-Text →

Fal Speech-to-Text is a mô hình nói- thành- văn bản. Đường dẫn qua các mô hình bên ngoài — ~500 tokens mỗi phút (50% markup trên chi phí lên nguồn).

Dùng qua API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'

Tài liệu API Lấy khóa API

Similar models

ElevenLabs STT

Wizper (Whisper v3)

Browse all models →

Câu hỏi thường gặp

Fal Speech-to-Text chuyển âm thanh nói thành văn bản. Tải lên một tập tin MP3, WAV, M4A, hoặc video và Fal Speech-to-Text sẽ trả lại bản dịch đầy đủ cộng thêm phụ đề SRT/VTT tùy chọn với dấu thời gian.

Fal Speech-to-Text xử lý hàng chục ngôn ngữ — Whisper-family models cover 90+, Parakeet covers ~25, others vary. Choose "auto-detect" or specify the language for highest accuracy.

Tỷ lệ lỗi từ là 5–10% trên âm thanh tiếng Anh sạch, 10–20% trên âm thanh ồn ào hoặc có giọng điệu. Các biến thể lớn của cùng một kiến trúc làm tốt hơn đáng kể trên các trường hợp khó — chọn lớn hơn khi âm thanh thô.

Có — mỗi đoạn bao gồm dấu thời gian bắt đầu/ kết thúc. Xuất dạng SRT hoặc VTT và bản đồ thời gian trực tiếp vào đoạn phim của bạn.

Fal Speech-to-Text là một công cụ phiên dịch cao cấp. Khoảng ~500–1,500 token mỗi phút âm thanh. $1 = 750,000 token.

MP3, WAV, M4A, FLAC, OGG, cộng với video (MP4, MOV, WebM) — chúng tôi sẽ trích xuất âm thanh. Tối đa 500 MB mỗi lần tải lên. Tập tin dài hơn? Phân tách bằng /audio/cut/ hoặc dùng /v1/stt/batch/.

Diarization của người nói là một bước riêng biệt — bật/tắt "diarize" trên /transcribe/. Fal Speech-to-Text xử lý việc phiên dịch; diarization đánh dấu mỗi phân đoạn với Người nói 1 / Người nói 2 / v.v.

Có — /batch/ chấp nhận thư mục của các tập tin âm thanh. Mỗi bản ghi sẽ được lưu trong /account/?tab=history với tên tập tin gốc. Để bảo tồn cây thư mục, dùng API.

Truy cập ngày 1 tháng 1 năm 2011. ^ Yes — POST your audio to /v1/stt/transcribe/ with model="Fal Speech-to-Text". Returns JSON with text + segments + word-level timestamp.

Các mô hình tự chủ giữ âm thanh trên GPU của chúng tôi; cao cấp truyền qua với DPA. Âm thanh bị xóa sau cửa sổ chia sẻ (24h anon, 7d đăng nhập). Chúng tôi không huấn luyện vào đầu vào của bạn.

Có — Free.ai cho phép sử dụng thương mại các bản ghi âm. Bạn cần quyền cho âm thanh bạn tải lên (bản ghi của bạn, tài liệu được cấp phép, hoặc nội dung được chấp thuận).

Hiệu suất thời gian thực là khoảng 0.05–0.2× — một podcast 60 phút được phiên âm trong 3–12 phút. Các mẫu Premium thường kết thúc nhanh hơn. Dùng nút xếp hàng để đóng thẻ.

Fal Speech-to-Text

Dùng qua API

Similar models

Câu hỏi thường gặp

Fal Speech-to-Text làm gì?

Fal Speech-to-Text hỗ trợ bao nhiêu ngôn ngữ?

Fal Speech-to-Text chính xác đến đâu?

Fal Speech-to-Text có bao gồm dấu thời gian không?

Fal Speech-to-Text có giá bao nhiêu một phút?

Tôi có thể tải lên định dạng âm thanh nào cho Fal Speech-to-Text?

Fal Speech-to-Text có thể nhận dạng những người nói khác nhau không?

Tôi có thể chuyển ngữ hàng loạt với Fal Speech-to-Text không?

Có một API cho Fal Speech-to-Text không?

Còn về sự riêng tư khi tôi viết với Fal Speech-to-Text?

Liệu kết quả Fal Speech-to-Text có an toàn cho mục đích thương mại không?

Fal Speech-to-Text mất bao lâu?

Lấy 10.000 token miễn phí

Chờ đã — Cầm 10K token miễn phí!

Muốn thêm nữa không?