人工知能キャプション生成器

商用OK 380+モデル 透かしなし 登録は不要
モデル:
+ GPT-5, Claude, Gemini
ビデオに TikTok 風のキャプションを焼く — 単語ごとのハイライトアニメーションを備えた大きなボールドテキスト (ASS カラオケタイミング) 。 単純な SRT/VTT サイドカーファイルを好みますか? 使用 字幕ツール代わりに これはスタイルが第一で いつも燃えている

動画をここにドラッグまたはクリックしてアップロード

MP4、MOV、WebM 200MBまで — Whisper を通じて99の言語をサポート

ワードごとに強調表示色を設定します(カラオケ効果)。
クリップのトークン推定
クリップの正確なコストを見るにはビデオをアップロードしてください。

広がりのあるキャプションが 生き残る場所

ティックトック/リール/ショート

短い形式の完成率は、単語ごとのキャプションを使うと30-40%上昇する。TikTok Neonプレセットは、トップクリエイターがすべて使用するものです。

YouTubeの動画

MrBeast スタイルの反応/コメント映像のボールドテキストオーバーレイ。YouTube Lowerthird プリセットに半透明のボックスを追加。

ソーシャルメディア用のポッドキャスト

音声を最初に表示する番組は IG Reels / TikTok のために再クリップされます。ポッドキャストのプリセットは、話し手の頭のフレームの上でキャプションを読み取れるように保持します。

4ステップの手順

  1. 音声を取り出し Whisper STTを実行し 各話のタイミングを読み取る
  2. スタイルプレセットを選択 - TikTok Neon は安全でウイルス性のある選択です。フォント / 強調表示色 / 位置はプレセットデフォルトを上書きします。
  3. カラオケのタイミングを用いたASS字幕ファイルを構築した。
  4. ffmpeg はビデオにキャプションを書き込みます。処理には 30-90 秒かかります。タブを閉じてください。完了したらメールでお知らせします。

対 CapCut、Submagic、Opus Clip、Captions.AI

CapCut の自動キャプションは無料で良いですが、CapCut エディタをインストールする必要があり、バッチで作成することはできません。Submagic は無制限で月額20ドルです。Opus Clip は長い形式から短い形式への自動キャプションが付属しています。Captions.AI (App Store) は月額10ドルです。このツールはWhisper large-v3 + ffmpeg ASS カラオケバーンインを実行します。これは有料ツールが使う2つのプリミティブと同じです。これはトークンプール内で実行します。一度に行う場合とバッチでソーシャルネットワークにエクスポートする場合は、最も速い方法です。

字幕と字幕の違いは何ですか?

字幕はユーティリティであり、視聴者がオン/オフできるSRT/VTTサイドカーファイルであり、アクセシビリティを考慮して設計され、YouTube Studioにアップロードされます。キャプションはスタイルであり、カラオケアニメーションを含む全フレームに大文字のテキストが焼かれています。これは85%の視聴者が音をオフにしているTikTok/Reels/Shortsでの完了率を高めるために設計されています。YouTube CCには字幕を使用してください。ウイルス性の短い形式にはキャプションを使用してください。

タイトルを表示しないとき

  • 既に字幕が埋め込まれているビデオ — テキストが倍増し、破損しているように見える。
  • 長い形式の YouTube アップロード — 代わりに /video/subtitle/ からサイドカー SRT を使用して、視聴者が CC を切り替えることができます。
  • 対話がないビデオはキャプションがありません。音楽のみのクリップは手動でテキストオーバーレイを追加してください。
追加オプション
結果
証券が足りない もっとトークンを取得
もっと良い結果が欲しいのか? プレミアムモデル また,高品質の画像を得るためには,画像の解像度を高くする必要がある。 プランを表示

❤️ Love this tool? Share it!

紹介リンクを得て 友達1人につき25,000トークンを稼ぐために

もっと欲しい? 無料登録で1日30Kトークン+10Kボーナス
無料登録

ご要望を処理中...

どんなビデオにも TikTok 風のキャプションを焼くことができます。カラオケのハイライト、7 つのスタイルプレセット、8 つのフォント、99 言語の Whisper STT を一言一句書き込みます。いつも焼き込みを行ってください。

使い方 人工知能キャプション生成器

1
入力を入力

テキストを入力、ファイルをアップロード、または必要なことを記述します。アカウントは必要ありません。

2
クリックして生成

私たちのAIは、最良のオープンソースモデルを使って、あなたの要求を数秒で処理します。

3
ダウンロードと共有

結果をダウンロード、コピー、共有できます。個人的、商業的な使用は無料です。

このツールを API で使用

あなたのコードからこのツールを自動化します。OpenAI 互換の REST エンドポイント、ベアートークン認証、追加の SDK が必要ありません。トークンのコストはウェブインターフェースと一致します。

curl -X POST https://api.free.ai/v1/video/generate/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"prompt": "A cat playing piano", "duration": 4}'

人工知能キャプション生成器 — FAQ

カラオケタイミングアニメーションを使って、どんなビデオにもビルティングスタイルのキャプションを書き込みます。 /video/subtitle/とは異なり、キャプションはプレイヤーがオン/オフにするSRT/VTTサイドカーファイルを出力します。キャプションは常にバーンインされ、スタイルが最初に表示され、キャプションがフレームごとにハードコード化されるTikTok/Reels/Shortsに適合します。

4 つのステップ: (1) 動画からモノ16kHzオーディオを抽出, (2) Whisper large-v3で99言語のワードタイミングを記録, (3) ワードレベルの\kfカラオケタイミングタグを含むASS字幕ファイルを作成, (4) ffmpegは、清潔なエリアス対策テキストのために、libassを使ってASSを各フレームに書き込む。

毎秒50トークン(最低2000トークン)。30秒のクリップは約2000トークン(フロアがキックイン)、60秒のクリップは約3000、3分のクリップは約9000。STTはコストの大部分を駆動し、バーンインは上に約25%を加える。

7つはTikTok Neon(黄色のモンセラト、ワードバイワードハイライト)、YouTube Lowerthird(半透明の箱の中の白いロボット)、Meme(黒い輪郭の白いインパクト)、Podcast(暗い丸い箱の中のポップピンズ)、Keynote(上部のArial Black)、Cinematic(下部のイタリックのOswald)、TED(左に並べたロボット)。

はい。フォントドロップダウンメニューはプリセットを Impact, Montserrat, Bebas Neue, Arial Black, Oswald, Poppins, Anton, Roboto で上書きします。ハイライト色選択機能は単語ごとのハイライトを制御します。位置はプリセットに関係なく上部/中央/下部を上書きします。

はい — Whisper を通じて 99 言語。自動検出はクリップの 99% で動作します。Whisper が誤って検出した場合は、言語を強制できます。5 秒以下の短いクリップや混合言語オーディオではよくあることです。

音声がない場合、Whisper はセグメントを返さず、明確な "音声検出できません" エラーを表示します。不可能なジョブでトークンを焼くことはありません。

CapCut はフリーで、インストール後オフラインで動作し、素晴らしい自動キャプションを持っています。CapCut が既にエディタであれば、そこで使ってください。人工知能キャプション生成器はインストールを省略し、バッチ型のブラウザアクセスを提供します。その下にある Whisper + libass チェーンは同じプリミティブです。

Submagicは20ドル/月で、何十ものスタイルパックを持つ無制限のキャプションを提供します。Opus Clipは30ドル/月で、長い形式から短い形式へのAIクリッピングをバンドルしています。Captions.AIはモバイル上で10ドル/月です。3つとも下にWhisperを使用しています。実際の価値はスタイルライブラリとクリップ検出です。一度の使用と小規模なボリュームの場合、人工知能キャプション生成器はトークンプール内で無料です。

Whisper はセグメントレベルのタイムスタンプを与えます。セグメントの持続時間を単語ごとに均等に分配して単語ごとのタイミングを推定します。速く話されるセグメントでは推定値は ~0.1秒ずれることがあります。フレーム精度のタイミングには、ダウンロード可能な.ass ファイルを使って Aegisub で編集してください。

はい。エクスポート後、字幕付き MP4 と原始.ass ファイルの両方をダウンロードできます。ピクセル精度のワードタイミングを望む場合は Aegisub で.ass を編集し、ffmpeg -vf subtitles=file.ass でローカルに再書き込みします。

はい。 /v1/video/caption/ に多重パートを POST します。`file`、`style` (tiktok-neon / youtube-lower / meme / podcast / keynote / cinematic / ted)、オプションの `font`、`highlight_color` (hex)、`position`、`language` を含む。 飛行前: GET /v1/video/caption-quote/?duration=SECS。スニペットは /api/ にあります。

1万枚のトークンで無料登録

無料アカウントを作成

クレジットカードは必要ありません

このツールをどう評価しますか?

Love this tool? Share it!