Fal Speech-to-Text

Free.ai · stt · ~500 1個あたりのトークン数 minute

音声やビデオファイルをドラッグまたは URL を下に貼り付け

~500 1個あたりのトークン数 minute
私たちのGPUでフリーで動作します。 アップグレード Fal Speech-to-Text →

Fal Speech-to-Textはa,音声からテキストへのモデルをである。 外部モデルを経由してルーティングされる - ~500トークン 1分あたりの (アップストリームコストの50%マークアップ)。

API を使う

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
APIドキュメント API キーを取得

よくある質問

Fal Speech-to-Textは話された音声をテキストに変換します。MP3、WAV、M4A、またはビデオファイルをアップロードすると、Fal Speech-to-Textは完全な転写とタイムスタンプ付きのオプションのSRT/VTT字幕を返します。

Fal Speech-to-Textは数十の言語を扱います。Whisperファミリーモデルは90+、Parakeetは約25、その他は変わります。最も正確な検出は、自動検出を選択したり、言語を指定したりしてください。

単語誤り率は清潔な英語音声では5-10%、ノイズあるいはアクセントのある音声では10-20%である。同じアーキテクチャの大きな変種はハードケースで有意に良い。音声が粗いときは大きいものを選ぶ。

はい — 各セグメントには開始/終了タイムスタンプが含まれています。SRT または VTT としてエクスポートすると、タイムマップは直接ビデオに表示されます。

Fal Speech-to-Textはプレミアム転写エンジンです。音声の約500-1,500トークン/分。$1 = 750,000トークン。

MP3, WAV, M4A, FLAC, OGG, さらにビデオ (MP4, MOV, WebM) — オーディオを抽出します。アップロード当たり最大 500 MB。長いファイルは /audio/cut/ で分割するか /v1/stt/batch/ を使います。

Fal Speech-to-Text は転写を扱います。ディアリゼーションは各セグメントにスピーカー1 / スピーカー2 / などのラベルを付けます。

はい — /batch/ はオーディオファイルのフォルダを受け入れます。それぞれの転写は元のファイル名と共に /account/?tab=history に保存されます。フォルダのツリーを保存するには API を使用してください。

はい — 音声を /v1/stt/transcribe/ に POST します。 model="Fal Speech-to-Text" を使用します。 テキスト + セグメント + ワードレベルタイムスタンプを含む JSON を返します。 /api/ には完全な参照が含まれています。

自己ホストモデルはオーディオをGPUに保持します。プレミアムモデルは DPA を通してオーディオを通過します。オーディオは共有ウィンドウ(24時間アノン、7日ログイン)後に削除されます。私たちはあなたの入力を訓練しません。

はい — Free.ai は転写の商用利用を許可します。アップロードしたオーディオの権利 (自分の録音、ライセンスのある素材、または許可されたコンテンツ) が必要です。

リアルタイムの要素は約 0.05-0.2× で、60 分のポッドキャストは 3-12 分で転写されます。プレミアムモデルは通常より早く終了します。キューボタンを使ってタブを閉じます。

Love this tool? Share it!

このページを評価