ElevenLabs STT
Free.ai
·
stt
·
~500 贴现符号数符数 minute
ElevenLabs STT是a语音到文本模式。 Routed through external models — ~500 tokens 每分钟 (50% markup over upstream cost).
常问问题
-ElevenLabs STT 抄录语音文字。 上传 MP3、 WAV、 M4A 或视频文件, 和 ElevenLabs STT 返回全文, 加上可选的 SRT/VTT 字幕, 加上时间戳 。
——ElevenLabs STT处理几十种语言——Whisper-家庭模式覆盖90+,Parakeet涵盖~25,其他不同。选择“自动检测”或指定最精确的语言。
简洁英语音频的单词错乱率是5-10%,噪音或口音为10-20 % 。 同一结构的大型变体在困难情况下效果更好 — 当音频粗糙时取得更大。
是 - 每个段都包含起始/ 结束时间戳。 导出为 SRT 或 VTT, 时间图会直接映射到您的视频中 。
-ElevenLabs STT 是一个溢价转录引擎。 每分钟音频大约~ 500-1 500个标记。 1 = 75000个标记。
MP3、WAV、M4A、FLAC、OGG,加上视频(MP4、MOV、WebM)——我们提取音频。每次上传最大值为500MB。较长的文件?与/audio/cut/或使用/v1/stt/batch/分割。
议长的diarization是一个单独的通行证——在/编录/.-ElevenLabs STT上划“diarize”处理抄录;每一段的diarization标签由议长1/发言人2/等标出。
是 -/batch/ 接受一个音频文件文件夹。 每一个抄本在/ account/? tab=历史文件名中都有原文件名。 文件夹树的保存使用 API 。
是 — POST 您的音频到 /v1/stt/ transcrip/ 模式= "ElevenLabs STT" 。 返回 JSON 时标时标, 文本+部分+单词值 。 / api/ 有完整参考。
自行托管的模型将音频保存在我们的 GPU 上; 溢价通过政治部。 在共享窗口( 24h anon, 7d ign- in) 后, 音频将被删除 。 我们不培训您的投入 。
Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).
实时因子大约为 0.05-0.2x —— 3 至 12 分钟内60 分钟的播客剪辑。 平价模型通常完成得更快。 使用队列按钮关闭标签 。