Question 1

ランスって何？

Accepted Answer

LanceはByteDanceの2025ネイティブ統一マルチモーダルモデルであり、Apache 2.0下の3Bアクティブパラメータです。1つの重みセットはテキスト→画像 (768×768)、画像編集 (768×768)、テキスト→ビデオ (480p、最大121フレーム ≈ 5秒)、画像+ビデオ理解 (VQA、キャプション) の4つのタスクをカバーします。Qwenから派生したLLMバックボーンに基づき、Wan-Video VAEとQwen.5-VL ViTを搭載しています。Free.aiのH200上でセルフホスティングされ、アップストリームプロバイダ、APIマークアップ、トークンバランス以上のコール毎の料金はありません。

Question 2

なぜ「統合」なのか？SDXL + エディタ + Wanを別々に実行するとどう違うのか？

Accepted Answer

多くのオープンスタックは各表面に最適な専門家を選択します。例えば、原画像生成の SDXL または FLUX、編集の Qwen-Image-Edit、ビデオの Wan 2.2、ビジョン言語推論の Qwen.5-VL です。Lance はタスクごとの品質を交換してクロスタスクの一貫性を提供します。同じ内部表現がすべての出力にフィードされます。生成した画像を編集すると、そのスタイルを保持し、モデルがビデオに関して与える VQA は同じチェックポイントで言語モデルと一致します。4つのパイプラインではなく、1つの一貫したモデルから利益を得る研究やデモに有用です。

Question 3

ランスと専門家を どちらを選ぶべきか？

Accepted Answer

1 つのモデルからの画像 + 編集 + ビデオの間で一貫したスタイルを求める場合、マルチタスクパイプラインのプロトタイプを作成し、「1 つのモデル」の角度が重要な場合、または統合ワークフローにおいて許容的なライセンスが必要な場合、Lance を選択します。 最高品質の原画像生成 (FLUX.2 Klein > Lance at >768²)、最長/最高品質のビデオ (Wan 2.2 TI2V-5B または HunyuanVideo > Lance at >480p)、またはチャットで最速の VQA (Qwen.5-VL は H200 で常に暖かく、Lance はコールドロードしなければなりません) を求める場合、専門家を選択します。

Question 4

ランスの任務はいくらかかる？

Accepted Answer

テキスト→画像と画像編集: 5,000 ポイント (FLUX クラスの画像生成に対応) テキスト→ビデオ: 15,000 ポイント (CogVideoX / Wan 5B クラスに対応) 画像+ビデオ VQA: 1,000 ポイント SDXL (1,000) に比べて高いコストは Lance のより重いコールドロードを反映しています。コールごとに、温暖なフリートの残りを排除し、40 GB の重みを再ロードします。これは推論自体に 25-40 秒を追加します。推論だけでなく、全壁時計 GPU 時間を請求しています。

Question 5

各作業はどれくらいかかりますか。

Accepted Answer

冷却負荷後（約２５〜４０秒）：画像生成約１２〜２０秒，画像編集約１５〜２５秒，テキスト→ビデオ約６０〜１８０秒（フレーム数に依存），ＶＱＡ約３〜８秒。

Question 6

出力の最大サイズ/長さは何ですか？

Accepted Answer

画像生成と画像編集は 768×768 に固定されます。ビデオ生成は 480p (通常 480×848 横長) に固定され、121 フレーム (24 fps で 5 秒) に制限されます。これらは Lance が訓練された解像度です。より高い解像度にするには別のモデルを使ってアップスケールする必要があります。画像の場合は /image/upscaler/、ビデオの場合は /video/upscaler/ を試してください。

Question 7

ジャヌス，ショーオー，エムユー３，その他の統合マルチモーダルと比較して，ランスはどうでしょうか？

Accepted Answer

また、Lanceはより統合的である。 明示的なタスクトークンを持つ、生成と理解のヘッドの一つのセットである。 Emu3（BAAI）は、ピクセルを含むすべてのものを離散トークンとしてトークン化し、より清潔な自己回帰的な生成を行うが、固定計算では品質が低い。 Lanceのピッチは、3Bアクティブパラメータの4タスクカバーと、ビデオをネイティブで扱うWanから派生したVAEである（JanusとShow-oは画像のみを扱う）。

Question 8

ランスのライセンスは？

Accepted Answer

Apache 2.0 — 重み (huggingface.co/bytedance-research/Lance) と GitHub のリポジトリ (github.com/bytedance/Lance) の両方。地域制限、MAU 上限、非商用ライダー、研究用のみの条項はありません。出力は、標準 Apache 2.0 ライセンステキストを超えて、ロイヤリティやクレジット要求なしに商用利用できます。

Question 9

自己ホストに必要な VRAM とハードウェアは？

Accepted Answer

3B アクティブパラメータは誤解を招くものである。Qwen LLM + Wan VAE + Qwen.5-VL ViT は全てメモリに一緒に存在する。セルフホストするには、少なくとも 40 GB のフリースペースを持つ A100 80 GB、 A6000 48 GB、 H100/H200 が必要です。私たちの H200 で実行しています。（合計 141 GB）が最も重いシングルショットであるため、コールごとにロードされた他のモデルを排除します。

Question 10

APIはあるのか？

Accepted Answer

はい — api.free.ai 上で /v1/multimodal/lance/ に JSON または multipart を POST {task: "t2i" | "image_edit" | "t2v" | "vqa", prompt: "...", image: <upload> or image_url: "/static/outputs/..."} で送信します。 開発者 API キーを通してベアラー認証を行います。 応答には job_id、出力 URL、 share_token が含まれます。 /api/ にはタスクごとの curl の例があります。

Question 11

なぜ「実験的」なの？

Accepted Answer

これは、コールドロード遅延が高いトラフィックに適していないことを意味する。コールごとに、温暖なフリートを排除し、再ロードする。使用量がスロットを割り当てる理由となるなら、後で「温暖なランス」の階層を追加するか、統合モデルに特別に2番目のH200を追加するかもしれません。現在、Free.aiの他のセルフホストモデルと同じトークン経済で、追加料金なしで利用できます。ただ、ウォールクロックGPU時間を反映したコール当たりのトークンコストが高いだけです。

Question 12

私のプロンプトとアップロードは保存されますか？訓練に使われますか？

Accepted Answer

アップロードされた画像はタスクが完了した後にすぐに削除されます。生成された出力は、24時間（有料ユーザは7日）間、CDNに保存されます。 /account/?tab=historyから再ダウンロードできます。ByteDanceとは何も共有されません。重みは、私たちのハードウェア上でローカルに実行されます。詳細は /privacy/ を参照してください。

モデルの詳細

情報

API を使う

比較

よくある質問

モデルの詳細

情報

API を使う

比較

よくある質問

10,000 無料トークンを取得

待ってくれ 10Kのフリートークンをもらえ

もっと欲しい？