Modelldetails
Über
Lance 3B (unified) is a KI-Modell built by ByteDance. Am stärksten bei Cross-task research, prototyping pipelines that need image + video + edit + VQA from one model, "one model, four tasks" demos. Apache 2.0, commercial use OK.. Selbstgehostet auf Free.ai GPUs — läuft kostenlos gegen Ihren täglichen Tokenpool ({tpm__tokens} pro Gebrauch). Veröffentlicht unter Apache 2.0 — kommerzielle Nutzung erlaubt auf Free.ai.
Verwendung über API
curl https://api.free.ai/v1/chat/ \
-H "Authorization: Bearer YOUR_KEY" \
-d '{"model":"lance-3b"}'
Vergleich
FAQ
Lance ist ByteDances 2025 natives einheitliches multimodales Modell — 3B aktive Parameter unter Apache 2.0. Eine Reihe von Gewichten deckt vier Aufgaben ab: text→image 768×768, image-edit 768×768, text→video (480p, bis zu 121 Frames 5 Sekunden) und image+video assessment (VQA, Captioning). Erbaut auf einem Qwen-derived LLM-Backbone mit Wan-Video VAE und einem Qwen.5-VL ViT. Selbst gehostet auf Free.ai's H200 ohne vorgelagerten Provider, ohne API-Markup und keine per-Call-Gebühren über Ihre Token-Balance.
Die meisten offenen Stacks wählen den besten Spezialisten für jede Oberfläche — SDXL oder FLUX für Rohbilderzeugung, Qwen-Image-Edit für Bearbeitungen, Wan 2.2 für Video, Qwen.5-VL für visionssprachliche Argumentation. Lance tradet ein wenig per-Task-Qualität für Cross-Task-Kohärenz: Die gleiche interne Darstellung füttert jede Ausgabe, so dass ein Bild, das Sie erzeugen und dann bearbeiten, seinen Stil behält, und das VQA das Modell gibt über ein Video entspricht dem Sprachmodell in der gleichen Checkpoint. Nützlich für Forschung und Demos, die von einem konsistenten Modell profitieren, anstatt eine Pipeline von vier.
Wählen Sie Lance, wenn: Sie einen konsistenten Stil über Bild + Bearbeiten + Video von einem Modell aus wollen, Sie prototypisieren eine Multi-Task-Pipeline und der "ein Modell" Winkel zählt, oder Sie benötigen eine permissive Lizenzierung auf dem einheitlichen Workflow. Wählen Sie Spezialisten, wenn: Sie qualitativ hochwertiges Rohbild gen (FLUX.2 Klein > Lance bei > 7682), die längste / höchste Qualität Video (Wan 2.2 TI2V-5B oder HunyuanVideo > Lance bei > 480p), oder schnellste VQA im Chat (Qwen.5-VL ist immer warm auf dem H200, Lance muss kalt laden).
Text→Bild und Bildedit: 5.000 Token (entspricht Bild Gen der FLUX-Klasse). Text→Video: 15.000 Token (entspricht CogVideoX / Wan 5B-Klasse). Image+Video VQA: 1.000 Token. Die höheren Kosten gegenüber SDXL (1.000) spiegeln Lances schwerere Kaltlast wider – jeder Anruf eliminiert den Rest der warmen Flotte und lädt 40 GB Gewichte neu, was zusätzlich zu der Schlußfolgerung 25-40 s bedeutet. Wir berechnen die gesamte Wand-Uhr-GPU-Zeit, nicht nur die Folgerung.
Nach kaltem Laden (~25-40 s): Bild gen ~12-20 s, Bild bearbeiten ~15-25 s, text→video ~60-180 s (abhängig von num_frames), VQA ~3-8 s. Jeder Lance-Aufruf kalt lädt das Modell, weil es nicht mit dem Rest der warmen Flotte auf der H200 co-resident, so dass die Kaltlastverzögerung ist Teil jedes Anrufs, nicht nur der erste.
Bildgenerierung und Bildbearbeitung sind auf 768×768 fixiert. Die Videogenerierung ist auf 480p (typischerweise 480×848 Landschaft) fixiert und auf 121 Frames (~5 Sekunden bei 24 fps) gedeckelt. Dies sind die Auflösungen, an denen Lance trainiert wurde; höheres Drücken erfordert Hochskalierung über ein separates Modell (Try /image/upscaler/ für Bilder oder /video/upscaler/ für Videos).
Janus (DeepSeek) und Show-o spalten Verständnis und Generierung in separate Köpfe auf einem gemeinsamen Rückgrat; Lance ist enger vereint – ein Satz von Generation+Verstehen Köpfe mit expliziten Aufgaben-Token. Emu3 (BAAI) tokenisiert alles als diskrete Token einschließlich Pixel, was ihm eine saubere autoregressive Generierung gibt, aber eine geringere Qualität bei festem Rechnen. Lance's Tonhöhe ist die vier-Task-Abdeckung in 3B aktiven Paramen sowie seine Wan-derived VAE, die Video nativ behandelt (Janus und Show-o sind Bild-only).
Apache 2.0 — sowohl die Gewichte (huggingface.co/bytedance-research/Lance) als auch die GitHub repo (github.com/bytedance/Lance). Keine Gebietsbeschränkungen, keine MAU-Kappe, kein nicht-kommerzieller Fahrer, keine Forschungs-Only-Klausel. Outputs sind Sie, um kommerziell ohne Lizenzgebühren oder Zuschreibungsanforderungen über den Standard Apache 2.0 Lizenztext zu verwenden.
40 GB Minimum pro ByteDances README. Die 3B aktiven Params sind trügerisch — das volle Qwen LLM + Wan VAE + Qwen.5-VL ViT sitzen alle im Speicher zusammen. Um selbst zu hosten, braucht man eine einzelne A100 80 GB, A6000 48 GB oder einen H100/H200 mit mindestens 40 GB frei. Wir laufen es auf unserem H200 (141 GB insgesamt) aber es eliminiert immer noch den Rest der geladenen Modelle pro Anruf, weil es der schwerste Einzelschuss auf der Box ist.
Ja — POST JSON oder multipart to /v1/multimodal/lance/ on api.free.ai mit {task: "t2i". "image_edit". "t2v". "vqa", prompt: "...", image: <upload> oder image_url: "/static/outputs/..."}. Träger auth über Entwickler-API-Tasten. Response beinhaltet job_id, Ausgabe-URL und share_token. /api/ hat Curl-Beispiele pro Task.
Wir markieren Lance experimentell, weil Kaltlastlatenz bedeutet, dass es nicht eine große fit für High-Volume-Verkehr ist – jeder Anruf eliminiert die warme Flotte und lädt. Wir können eine "warme Lance"-Ebene später hinzufügen, wenn die Verwendung berechtigt, einen Slot zu widmen, oder wir können eine zweite H200 speziell für einheitliche Modelle hinzufügen. Im Moment ist es auf der gleichen Token-Ökonomie wie der Rest von Free.ai selbst-hosted Modelle ohne Aufpreis, nur die höheren pro-Call-Token-Kosten, die die Wand-Uhr GPU-Zeit.
Hochgeladene Bilder für Image-edit und VQA werden sofort nach Abschluss der Aufgabe gelöscht. Generierte Ausgänge sitzen 24 Stunden auf unserem CDN (7 Tage für bezahlte Benutzer), so dass Sie wieder aus /account/?tab=history herunterladen können. Nichts wird mit ByteDance geteilt — die Gewichte laufen lokal auf unserer Hardware. Vollständige Details unter /privacy/.