Wizper (Whisper v3)
Free.ai
·
stt
·
~500 1個あたりのトークン数 minute
Wizper (Whisper v3)はa,音声からテキストへのモデルをである。 外部モデルを経由してルーティングされる - ~500トークン 1分あたりの (アップストリームコストの50%マークアップ)。
よくある質問
Wizper (Whisper v3)は話された音声をテキストに変換します。MP3、WAV、M4A、またはビデオファイルをアップロードすると、Wizper (Whisper v3)は完全な転写とタイムスタンプ付きのオプションのSRT/VTT字幕を返します。
Wizper (Whisper v3)は数十の言語を扱います。Whisperファミリーモデルは90+、Parakeetは約25、その他は変わります。最も正確な検出は、自動検出を選択したり、言語を指定したりしてください。
単語誤り率は清潔な英語音声では5-10%、ノイズあるいはアクセントのある音声では10-20%である。同じアーキテクチャの大きな変種はハードケースで有意に良い。音声が粗いときは大きいものを選ぶ。
はい — 各セグメントには開始/終了タイムスタンプが含まれています。SRT または VTT としてエクスポートすると、タイムマップは直接ビデオに表示されます。
Wizper (Whisper v3)はプレミアム転写エンジンです。音声の約500-1,500トークン/分。$1 = 750,000トークン。
MP3, WAV, M4A, FLAC, OGG, さらにビデオ (MP4, MOV, WebM) — オーディオを抽出します。アップロード当たり最大 500 MB。長いファイルは /audio/cut/ で分割するか /v1/stt/batch/ を使います。
Wizper (Whisper v3) は転写を扱います。ディアリゼーションは各セグメントにスピーカー1 / スピーカー2 / などのラベルを付けます。
はい — /batch/ はオーディオファイルのフォルダを受け入れます。それぞれの転写は元のファイル名と共に /account/?tab=history に保存されます。フォルダのツリーを保存するには API を使用してください。
はい — 音声を /v1/stt/transcribe/ に POST します。 model="Wizper (Whisper v3)" を使用します。 テキスト + セグメント + ワードレベルタイムスタンプを含む JSON を返します。 /api/ には完全な参照が含まれています。
自己ホストモデルはオーディオをGPUに保持します。プレミアムモデルは DPA を通してオーディオを通過します。オーディオは共有ウィンドウ(24時間アノン、7日ログイン)後に削除されます。私たちはあなたの入力を訓練しません。
はい — Free.ai は転写の商用利用を許可します。アップロードしたオーディオの権利 (自分の録音、ライセンスのある素材、または許可されたコンテンツ) が必要です。
リアルタイムの要素は約 0.05-0.2× で、60 分のポッドキャストは 3-12 分で転写されます。プレミアムモデルは通常より早く終了します。キューボタンを使ってタブを閉じます。