Fal Speech-to-Text

Free.ai · stt · ~500 Символы в расчете на minute

Оставить аудио- или видео файл или вставить URL ниже

~500 Символы в расчете на minute
Бесплатно работает на наших GPU. Модернизация Fal Speech-to-Text →

Fal Speech-to-Text является {article_freahi_ph} Категория __. Routed through external models — ~500 tokens в минуту (50% markup over upstream cost).

Использование через API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
Документация API Выбрать ключ API

Часто задаваемые вопросы

Fal Speech-to-Text transcribes spoken audio into text. Upload an MP3, WAV, M4A, or video file and Fal Speech-to-Text returns the full transcript plus optional SRT/VTT subtitles with timestamps.

Fal Speech-to-Text handles dozens of languages — Whisper-family models cover 90+, Parakeet covers ~25, others vary. Pick "auto-detect" or specify the language for highest accuracy.

Крупные варианты одной и той же архитектуры значительно лучше работают в сложных случаях — выбирайте больше, когда звук груб.

Да — каждый сегмент включает в себя стартовую/конец времени.

Fal Speech-to-Text is a premium transcription engine. About ~500–1,500 tokens per minute of audio. $1 = 750,000 tokens.

MP3, WAV, M4A, FLAC, OGG, плюс видео (MP4, MOV, WebM) — мы извлекаем аудио. Макс 500 MB за загрузку. Более длинные файлы? Разделить с /audio/cut/ или использовать /v1/stt/batch/.

Speaker diarization is a separate pass — toggle "diarize" on /transcribe/. Fal Speech-to-Text handles the transcription; diarization labels each segment with Speaker 1 / Speaker 2 / etc.

Да — / batch/ принимает папку аудиофайлов. Каждая транскрипция попадает в /account/?tab=историю с оригинальным именем файла. Для сохранения папки-три используйте API.

Yes — POST your audio to /v1/stt/transcribe/ with model="Fal Speech-to-Text". Returns JSON with text + segments + word-level timestamps. /api/ has the full reference.

Самодельные модели хранят аудио на наших GPU; премиальные проходят через DDR. Аудио удаляется после совместного окна (24h anon, 7d подписано). Мы не тренируемся на ваших входных данных.

Да — Free.ai предоставляет коммерческое использование стенограмм. Вам нужны права на загрузку аудиозаписи (ваша собственная запись, лицензированный материал или контент с согласия).

Коэффициент реального времени примерно 0,05-0,2 × — 60-минутные транскрипции через 3-12 минут. Премиум модели часто заканчивают быстрее. Используйте кнопку очереди для закрытия вкладки.

Love this tool? Share it!

Расценить эту страницу