Fal Speech-to-Text

Q: -Fal Speech-to-Text是做什么的?

-Fal Speech-to-Text 抄录语音文字。 上传 MP3、 WAV、 M4A 或视频文件, 和 Fal Speech-to-Text 返回全文, 加上可选的 SRT/VTT 字幕, 加上时间戳 。

Q: Fal Speech-to-Text 的准确度如何?

简洁英语音频的单词错乱率是5-10%,噪音或口音为10-20 % 。 同一结构的大型变体在困难情况下效果更好 — 当音频粗糙时取得更大。

Q: Fal Speech-to-Text是否包括时标?

是 - 每个段都包含起始/ 结束时间戳。 导出为 SRT 或 VTT, 时间图会直接映射到您的视频中 。

Q: 每分钟Fal Speech-to-Text$_多少钱?

-Fal Speech-to-Text 是一个溢价转录引擎。 每分钟音频大约~ 500-1 500个标记。 1 = 75000个标记。

Q: 我能用Fal Speech-to-Text来批量抄写吗?

是 -/batch/ 接受一个音频文件文件夹。 每一个抄本在/ account/? tab=历史文件名中都有原文件名。 文件夹树的保存使用 API 。

Q: 当我在Fal Speech-to-Text的专访中 转写隐私时呢?

自行托管的模型将音频保存在我们的 GPU 上; 溢价通过政治部。 在共享窗口( 24h anon, 7d ign- in) 后, 音频将被删除 。 我们不培训您的投入 。

Free.ai · stt · ~500 贴现符号数符数 minute

上传音频

将音频或视频文件投放到下面,或粘贴下面的 URL

~500 贴现符号数符数 minute

免费运行在我们的GPUs上。升级至 Fal Speech-to-Text →

Fal Speech-to-Text是a语音到文本模式。 Routed through external models — ~500 tokens 每分钟 (50% markup over upstream cost).

通过 API 使用

OpenAI- 兼容的 REST API。生成一个密钥, 并在秒内调用此模式。

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'

API 文件获取 API 密钥

类似模式

ElevenLabs STT

Wizper (Whisper v3)

浏览所有模型 →

常问问题

-Fal Speech-to-Text 抄录语音文字。上传 MP3、 WAV、 M4A 或视频文件, 和 Fal Speech-to-Text 返回全文, 加上可选的 SRT/VTT 字幕, 加上时间戳。

——Fal Speech-to-Text处理几十种语言——Whisper-家庭模式覆盖90+,Parakeet涵盖~25,其他不同。选择“自动检测”或指定最精确的语言。

简洁英语音频的单词错乱率是5-10%,噪音或口音为10-20 % 。同一结构的大型变体在困难情况下效果更好 — 当音频粗糙时取得更大。

是 - 每个段都包含起始/ 结束时间戳。导出为 SRT 或 VTT, 时间图会直接映射到您的视频中。

-Fal Speech-to-Text 是一个溢价转录引擎。每分钟音频大约~ 500-1 500个标记。 1 = 75000个标记。

MP3、WAV、M4A、FLAC、OGG,加上视频(MP4、MOV、WebM)——我们提取音频。每次上传最大值为500MB。较长的文件?与/audio/cut/或使用/v1/stt/batch/分割。

议长的diarization是一个单独的通行证——在/编录/.-Fal Speech-to-Text上划“diarize”处理抄录;每一段的diarization标签由议长1/发言人2/等标出。

是 -/batch/ 接受一个音频文件文件夹。每一个抄本在/ account/? tab=历史文件名中都有原文件名。文件夹树的保存使用 API 。

是 — POST 您的音频到 /v1/stt/ transcrip/ 模式= "Fal Speech-to-Text" 。返回 JSON 时标时标, 文本+部分+单词值。 / api/ 有完整参考。

自行托管的模型将音频保存在我们的 GPU 上; 溢价通过政治部。在共享窗口( 24h anon, 7d ign- in) 后, 音频将被删除。我们不培训您的投入。

Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).

实时因子大约为 0.05-0.2x —— 3 至 12 分钟内60 分钟的播客剪辑。平价模型通常完成得更快。使用队列按钮关闭标签。

Fal Speech-to-Text

通过 API 使用

类似模式

常问问题

-Fal Speech-to-Text是做什么的?

Fal Speech-to-Text 支持多少种语言?

Fal Speech-to-Text 的准确度如何?

Fal Speech-to-Text是否包括时标?

每分钟Fal Speech-to-Text$_多少钱?

我能上传到...Fal Speech-to-Text... 的音频格式吗?

-Fal Speech-to-Text能够确定不同的发言者吗?

我能用Fal Speech-to-Text来批量抄写吗?

Is there an API for Fal Speech-to-Text?

当我在Fal Speech-to-Text的专访中 转写隐私时呢?

用于商业用途的Fal Speech-to-Text 输出是否安全?

Fal Speech-to-Text需要多长时间?

买一万个免费当当

等等,拿10K自由调音!

还要吗?