人工知能トークンヘッド
商用OK
380+モデル
透かしなし
登録は不要
モデル:
+ GPT-5, Claude, Gemini
Animate any portrait photo to speak. Drop a face image + an audio file (or paste TTS text), AI generates a video of the face talking with synchronized lip movements. Powered by SadTalker — fast and reliable for professional talking-head explainer videos.
追加オプション
結果
証券が足りない
もっとトークンを取得
もっと欲しい?
無料登録で1日30Kトークン+10Kボーナス
無料登録
ご要望を処理中...
顔写真をアニメーションで話す。無料の SadTalker (自社ホスト) またはプレミアムの lipsync — 顔写真と音声を削除して、唇同期の話し頭のビデオを返します。説明者、アバター、ビデオのボイスオーバーに最適です。
使い方 人工知能トークンヘッド
1
入力を入力
テキストを入力、ファイルをアップロード、または必要なことを記述します。アカウントは必要ありません。
2
クリックして生成
私たちのAIは、最良のオープンソースモデルを使って、あなたの要求を数秒で処理します。
3
ダウンロードと共有
結果をダウンロード、コピー、共有できます。個人的、商業的な使用は無料です。
このツールを API で使用
あなたのコードからこのツールを自動化します。OpenAI 互換の REST エンドポイント、ベアートークン認証、追加の SDK が必要ありません。トークンのコストはウェブインターフェースと一致します。
curl -X POST https://api.free.ai/v1/video/generate/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"prompt": "A cat playing piano", "duration": 4}'
人工知能トークンヘッド — FAQ
人物写真とオーディオクリップ(または音声ファイル)をアップロードすると、AI が顔をアニメーション化して音声を唇同期します。出力は写真のMP4ビデオで、リアルな口の動き、頭の揺れ、瞬きで音声を「話す」ものです。2つのモデルがあります。フリーの SadTalker (MIT で自社ホスト) とプレミアムの lipsync (口の細かい、速い) 。
SadTalker は、私たちのセルフホストGPU上で動作し、日々のトークンプールで無料です。クリップごとに約6,000トークンベース+音声の1秒あたり800トークンが必要です。10秒のクリップは約14,000トークンです。匿名は2,500/日、ログインは10,000/日です。プレミアムも長さでスケールしますが、より鋭い出力です。
SadTalker (デフォルト) は無料で、頭の微妙な動きと瞬きを伴う自然な話し声を生成します。Premium LipSync は口の形がより鋭くなり(特に「p」、「b」、「m」のような閉音節と両唇音に対して)、長い音声では 2-3 倍速くレンダリングします。ソーシャルメディアの説明者やアバターに SadTalker は素晴らしいです。高品質のダビングやリップシンクに関する重要なコンテンツには、Premium に切り替えてください。
正面に向けた肖像画、明瞭な顔、均一な照明、中性な表情。顔はフレームの少なくとも 30% を占めるべきです。重いサングラスは避けてください(アイトラッキングを妨げます)、プロファイル写真は避けてください(モデルの両目が見える必要があります)、過激な表情は避けてください。スタジオのヘッドショットや良いセルフはうまくいきます。
明瞭な音声の WAV または MP3 ファイル。 SadTalker は 1-30 秒のクリップを信頼性よく処理します。より長いクリップはサポートされていますが、遅いです。最良のリップシンクのためには、一つのスピーカーを使い、背景の雑音を低減し、明瞭な発音を行ってください。話し手をスクリプトする場合は、まず /tts/ で音声を生成してください。
SadTalker はオーディオの秒数ごとに GPU 時間を約 10 秒かけます。10 秒の話し声は約 100 秒かかります。Premium LipSync はより速く (オーディオの秒数ごとに 3-5 秒かかります) ですが、コストが高いです。両方とも A100 で動作します。タブを閉じると結果がダッシュボードに表示されます。
私たちは SadTalker を無料で提供します。 説明/アバタービデオの品質は同等です。 プレミアムリップシンクは D-ID スタジオの品質に匹敵します。 無料のオプションは、正直、ほとんどの TikTok / YouTube の短い使用例に十分です。
はい - /image/avatar/または /image/generate/を使って顔を生成し、ここにフィードします。モデルはどのような前方に向かって描かれた肖像画でも同じように扱います。共通のチェーン: プロンプト → SDXL 肖像画 → SadTalker アニメーション → 声のための /tts/ → 完了。
SadTalker は顔の領域 (口、目、頭の動き、瞬き) をアニメーションします。肩、衣服、背景はほぼ静止しています。身体の動きを伴う全身の話し頭の場合は、より広いクロップでプレミアムリップシンクモデルを使用してください。
はい - 多部品の 'image' + 'audio' を /v1/video/talking-head/ に POST します。または、多くの実行をキューにするには /scheduled/ を使用してください。 /batch/ は、画像 URL + オーディオ URL ペアの CSV も受け入れます。
はい — api.free.ai 上で多重 `image` + `audio` を /v1/video/talking-head/ に POST します。 持ち主認証。 `video_url` + `share_token` を JSON で返します。 10,000 トン/月無料。 プレミアムはオーディオの持続時間に応じて線形にスケールします。 /api/ には curl の例があります。
写真とオーディオは生成後24時間以内に削除されます。出力されたビデオは24時間(有料ユーザは7日)CDNに保存され、/account/?tab=historyから再ダウンロードできます。訓練用には使用されません。プライバシーポリシーは/privacy/にあります。
このツールをどう評価しますか?