Fal Speech-to-Text

Free.ai · stt · ~500 贴现符号数符数 minute

将音频或视频文件投放到下面,或粘贴下面的 URL

~500 贴现符号数符数 minute
免费运行在我们的GPUs上。 升级至 Fal Speech-to-Text →

Fal Speech-to-Text是a语音到文本模式。 Routed through external models — ~500 tokens 每分钟 (50% markup over upstream cost).

通过 API 使用

OpenAI- 兼容的 REST API。 生成一个密钥, 并在秒内调用此模式 。

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API 文件 获取 API 密钥

常问问题

-Fal Speech-to-Text 抄录语音文字。 上传 MP3、 WAV、 M4A 或视频文件, 和 Fal Speech-to-Text 返回全文, 加上可选的 SRT/VTT 字幕, 加上时间戳 。

——Fal Speech-to-Text处理几十种语言——Whisper-家庭模式覆盖90+,Parakeet涵盖~25,其他不同。选择“自动检测”或指定最精确的语言。

简洁英语音频的单词错乱率是5-10%,噪音或口音为10-20 % 。 同一结构的大型变体在困难情况下效果更好 — 当音频粗糙时取得更大。

是 - 每个段都包含起始/ 结束时间戳。 导出为 SRT 或 VTT, 时间图会直接映射到您的视频中 。

-Fal Speech-to-Text 是一个溢价转录引擎。 每分钟音频大约~ 500-1 500个标记。 1 = 75000个标记。

MP3、WAV、M4A、FLAC、OGG,加上视频(MP4、MOV、WebM)——我们提取音频。每次上传最大值为500MB。较长的文件?与/audio/cut/或使用/v1/stt/batch/分割。

议长的diarization是一个单独的通行证——在/编录/.-Fal Speech-to-Text上划“diarize”处理抄录;每一段的diarization标签由议长1/发言人2/等标出。

是 -/batch/ 接受一个音频文件文件夹。 每一个抄本在/ account/? tab=历史文件名中都有原文件名。 文件夹树的保存使用 API 。

是 — POST 您的音频到 /v1/stt/ transcrip/ 模式= "Fal Speech-to-Text" 。 返回 JSON 时标时标, 文本+部分+单词值 。 / api/ 有完整参考。

自行托管的模型将音频保存在我们的 GPU 上; 溢价通过政治部。 在共享窗口( 24h anon, 7d ign- in) 后, 音频将被删除 。 我们不培训您的投入 。

Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).

实时因子大约为 0.05-0.2x —— 3 至 12 分钟内60 分钟的播客剪辑。 平价模型通常完成得更快。 使用队列按钮关闭标签 。

Love this tool? Share it!

本页利率