Question 1

Was ist Lance?

Accepted Answer

Lance ist ByteDances 2025 natives einheitliches multimodales Modell — 3B aktive Parameter unter Apache 2.0. Eine Reihe von Gewichten deckt vier Aufgaben ab: text→image 768×768, image-edit 768×768, text→video (480p, bis zu 121 Frames 5 Sekunden) und image+video assessment (VQA, Captioning). Erbaut auf einem Qwen-derived LLM-Backbone mit Wan-Video VAE und einem Qwen.5-VL ViT. Selbst gehostet auf Free.ai's H200 ohne vorgelagerten Provider, ohne API-Markup und keine per-Call-Gebühren über Ihre Token-Balance.

Question 2

Warum "einheitlich"? Wie unterscheidet sich das von SDXL + einem Editor + Wan separat?

Accepted Answer

Die meisten offenen Stacks wählen den besten Spezialisten für jede Oberfläche — SDXL oder FLUX für Rohbilderzeugung, Qwen-Image-Edit für Bearbeitungen, Wan 2.2 für Video, Qwen.5-VL für visionssprachliche Argumentation. Lance tradet ein wenig per-Task-Qualität für Cross-Task-Kohärenz: Die gleiche interne Darstellung füttert jede Ausgabe, so dass ein Bild, das Sie erzeugen und dann bearbeiten, seinen Stil behält, und das VQA das Modell gibt über ein Video entspricht dem Sprachmodell in der gleichen Checkpoint. Nützlich für Forschung und Demos, die von einem konsistenten Modell profitieren, anstatt eine Pipeline von vier.

Question 3

Wann soll ich Lance gegen die Spezialisten wählen?

Accepted Answer

Wählen Sie Lance, wenn: Sie einen konsistenten Stil über Bild + Bearbeiten + Video von einem Modell aus wollen, Sie prototypisieren eine Multi-Task-Pipeline und der "ein Modell" Winkel zählt, oder Sie benötigen eine permissive Lizenzierung auf dem einheitlichen Workflow. Wählen Sie Spezialisten, wenn: Sie qualitativ hochwertiges Rohbild gen (FLUX.2 Klein > Lance bei > 7682), die längste / höchste Qualität Video (Wan 2.2 TI2V-5B oder HunyuanVideo > Lance bei > 480p), oder schnellste VQA im Chat (Qwen.5-VL ist immer warm auf dem H200, Lance muss kalt laden).

Question 4

Wie viel kostet jede Lance-Aufgabe?

Accepted Answer

Text→Bild und Bildedit: 5.000 Token (entspricht Bild Gen der FLUX-Klasse). Text→Video: 15.000 Token (entspricht CogVideoX / Wan 5B-Klasse). Image+Video VQA: 1.000 Token. Die höheren Kosten gegenüber SDXL (1.000) spiegeln Lances schwerere Kaltlast wider – jeder Anruf eliminiert den Rest der warmen Flotte und lädt 40 GB Gewichte neu, was zusätzlich zu der Schlußfolgerung 25-40 s bedeutet. Wir berechnen die gesamte Wand-Uhr-GPU-Zeit, nicht nur die Folgerung.

Question 5

Wie lange dauert jede Aufgabe?

Accepted Answer

Nach kaltem Laden (~25-40 s): Bild gen ~12-20 s, Bild bearbeiten ~15-25 s, text→video ~60-180 s (abhängig von num_frames), VQA ~3-8 s. Jeder Lance-Aufruf kalt lädt das Modell, weil es nicht mit dem Rest der warmen Flotte auf der H200 co-resident, so dass die Kaltlastverzögerung ist Teil jedes Anrufs, nicht nur der erste.

Question 6

Was ist die maximale Ausgabegröße / -länge?

Accepted Answer

Bildgenerierung und Bildbearbeitung sind auf 768×768 fixiert. Die Videogenerierung ist auf 480p (typischerweise 480×848 Landschaft) fixiert und auf 121 Frames (~5 Sekunden bei 24 fps) gedeckelt. Dies sind die Auflösungen, an denen Lance trainiert wurde; höheres Drücken erfordert Hochskalierung über ein separates Modell (Try /image/upscaler/ für Bilder oder /video/upscaler/ für Videos).

Question 7

Wie vergleicht Lance mit Janus, Show-o, Emu3 oder anderen einheitlichen Multimodalen?

Accepted Answer

Janus (DeepSeek) und Show-o spalten Verständnis und Generierung in separate Köpfe auf einem gemeinsamen Rückgrat; Lance ist enger vereint – ein Satz von Generation+Verstehen Köpfe mit expliziten Aufgaben-Token. Emu3 (BAAI) tokenisiert alles als diskrete Token einschließlich Pixel, was ihm eine saubere autoregressive Generierung gibt, aber eine geringere Qualität bei festem Rechnen. Lance's Tonhöhe ist die vier-Task-Abdeckung in 3B aktiven Paramen sowie seine Wan-derived VAE, die Video nativ behandelt (Janus und Show-o sind Bild-only).

Question 8

Welche Lizenz steht unter Lance? Kann ich sie kommerziell nutzen?

Accepted Answer

Apache 2.0 — sowohl die Gewichte (huggingface.co/bytedance-research/Lance) als auch die GitHub repo (github.com/bytedance/Lance). Keine Gebietsbeschränkungen, keine MAU-Kappe, kein nicht-kommerzieller Fahrer, keine Forschungs-Only-Klausel. Outputs sind Sie, um kommerziell ohne Lizenzgebühren oder Zuschreibungsanforderungen über den Standard Apache 2.0 Lizenztext zu verwenden.

Question 9

Welche VRAM und Hardware braucht es, um selbst zu hosten?

Accepted Answer

40 GB Minimum pro ByteDances README. Die 3B aktiven Params sind trügerisch — das volle Qwen LLM + Wan VAE + Qwen.5-VL ViT sitzen alle im Speicher zusammen. Um selbst zu hosten, braucht man eine einzelne A100 80 GB, A6000 48 GB oder einen H100/H200 mit mindestens 40 GB frei. Wir laufen es auf unserem H200 (141 GB insgesamt) aber es eliminiert immer noch den Rest der geladenen Modelle pro Anruf, weil es der schwerste Einzelschuss auf der Box ist.

Question 10

Gibt es eine API?

Accepted Answer

Ja — POST JSON oder multipart to /v1/multimodal/lance/ on api.free.ai mit {task: "t2i". "image_edit". "t2v". "vqa", prompt: "...", image: <upload> oder image_url: "/static/outputs/..."}. Träger auth über Entwickler-API-Tasten. Response beinhaltet job_id, Ausgabe-URL und share_token. /api/ hat Curl-Beispiele pro Task.

Question 11

Warum "experimentell"? Bleibt das kostenlos?

Accepted Answer

Wir markieren Lance experimentell, weil Kaltlastlatenz bedeutet, dass es nicht eine große fit für High-Volume-Verkehr ist – jeder Anruf eliminiert die warme Flotte und lädt. Wir können eine "warme Lance"-Ebene später hinzufügen, wenn die Verwendung berechtigt, einen Slot zu widmen, oder wir können eine zweite H200 speziell für einheitliche Modelle hinzufügen. Im Moment ist es auf der gleichen Token-Ökonomie wie der Rest von Free.ai selbst-hosted Modelle ohne Aufpreis, nur die höheren pro-Call-Token-Kosten, die die Wand-Uhr GPU-Zeit.

Question 12

Werden meine Aufforderungen und Uploads gespeichert oder zum Training genutzt?

Accepted Answer

Hochgeladene Bilder für Image-edit und VQA werden sofort nach Abschluss der Aufgabe gelöscht. Generierte Ausgänge sitzen 24 Stunden auf unserem CDN (7 Tage für bezahlte Benutzer), so dass Sie wieder aus /account/?tab=history herunterladen können. Nichts wird mit ByteDance geteilt — die Gewichte laufen lokal auf unserer Hardware. Vollständige Details unter /privacy/.

Modelldetails

Über

Verwendung über API

Vergleich

FAQ

Modelldetails

Über

Verwendung über API

Vergleich

FAQ

Erhalten Sie 10.000 kostenlose Token

Warten Sie — Holen Sie sich 10K kostenlose Token!

Willst du mehr?