Question 1

Che cos'è Lance?

Accepted Answer

Lance è il modello multimodale nativo di ByteDance del 2025 unificato sotto Apache 2.0. Una serie di pesi copre quattro compiti: testo→immagine (768×768), modifica dell'immagine (768×768), testo→video (480p, fino a 121 frame 5 secondi), e comprensione dell'immagine+video (VQA, didascalia). Costruito su un Qwen derivato LLM spina dorsale con un Wan-Video VaE e un Qwen,5-VL ViT. Auto-ospitato su Free.ai H200 senza provider a monte, nessun markup API, e nessuna tassa per chiamata oltre il vostro saldo gettone.

Question 2

Perché "unificato"? Come è diverso dall'esecuzione di SDXL + un editor + Wan separatamente?

Accepted Answer

La maggior parte degli stack aperti seleziona il miglior specialista per ogni superficie SDXL o FLUX per la generazione di immagini raw, Qwen-Modifica di immagine per le modifiche, Wan 2.2 per il video, Qwen.5-VL per il ragionamento del linguaggio visivo. Lance scambia un po' di qualità per-task per la coerenza cross-task: la stessa rappresentazione interna alimenta ogni uscita, quindi un'immagine che si genera e poi si modifica conserva il suo stile, e il VQA che il modello fornisce circa un modello di lingua nello stesso checkpoint. Utile per la ricerca e le demo che beneficiano di un modello coerente piuttosto che di una pipeline di quattro.

Question 3

Quando devo scegliere Lance contro gli specialisti?

Accepted Answer

Scegli Lance quando: vuoi uno stile coerente tra immagine + modifica + video da un modello, stai prototipando una pipeline multi-task e l'angolo "un modello" conta, o hai bisogno di licenze permissive sul flusso di lavoro unificato. Scegli specialisti quando: vuoi un'immagine grezza di alta qualità (FLUX.2 Klein > Lance a >7682), video più lungo / di alta qualità (Wan 2.2 TI2V-5B o HunyuanVideo > Lance a >480p), o VQA più veloce in chat (Qwen.5-VL è sempre caldo sul H200, Lance ha a carico freddo).

Question 4

Quanto costa ogni compito di Lance?

Accepted Answer

Text→image and image-edit: 5.000 tokens (matches FLUX-class image gen). Text→video: 15.000 tokens (matches CogVideoX / Wan 5B class). Image+video VQA: 1.000 tokens. Il costo più alto vs SDXL (1.000) riflette il più pesante carico a freddo di Lance ogni chiamata sfratta il resto della flotta calda e ricarica 40 GB di pesi, che aggiunge 25-40 s in cima alla stessa inferenza. Stiamo fatturando per il tempo totale di GPU wall-clock, non solo inferenza.

Question 5

Quanto tempo ci vuole per ogni compito?

Accepted Answer

Dopo il carico a freddo (~25-40 s): imagine gen ~12-20 s, image edit ~15-25 s, text→video ~60-180 s (a seconda dei num_frames), VQA ~3-8 s. Ogni chiamata a Lancia carica a freddo il modello perché non può co-residente con il resto della flotta calda sul H200, quindi il ritardo a carico freddo fa parte di ogni chiamata, non solo il primo.

Question 6

Qual è la dimensione massima di uscita / lunghezza?

Accepted Answer

La generazione di immagini e la modifica di immagini sono fissati a 768×768. La generazione di video è fissata a 480p (tipicamente 480×848) e limitata a 121 fotogrammi (~5 secondi a 24 fps). Queste sono le risoluzioni che Lance è stato addestrato su; spingendo superiore richiede upscaling tramite un modello separato (prova /image/upscaler/ per le immagini o /video/upscaler/ per i video).

Question 7

Come si confronta Lance con Janus, Show-o, Emu3, o altri multimodali unificati?

Accepted Answer

Janus (DeepSeek) e Show-o dividono la comprensione e la generazione in testine separate su una spina dorsale condivisa; Lance è più strettamente unificato con una serie di testine generation+understanding con token espliciti. Emu3 (BAAI) indica tutto come token discreti, inclusi pixel, che gli conferisce una generazione autoregressiva più pulita ma di qualità inferiore al calcolo fisso. Lance's pitch è la copertura a quattro compiti in parami attivi 3B più il suo Wan-derivato VAE che gestisce il video nativamente (Janus e Show-o sono solo immagini).

Question 8

Qual è la licenza di Lance? Posso usarla commercialmente?

Accepted Answer

Apache 2.0 è il risultato sia dei pesi (huggingface.co/bytedance-research/Lance) sia del repo di GitHub (github.com/bytedance/Lance). Nessuna restrizione territoriale, nessun tetto MAU, nessun pilota non commerciale, nessuna clausola di ricerca. I risultati sono da utilizzare commercialmente senza diritti o requisiti di attribuzione al di là del testo standard di licenza Apache 2.0.

Question 9

Di che VRAM e hardware ha bisogno per ospitarsi?

Accepted Answer

40 GB minimo per ByteDance's README. I parami attivi 3B sono ingannevoli Qwen LLM + Wan VAE + Qwen,5-VL ViT tutti seduti in memoria insieme. Per ospitare self-host avresti bisogno di un singolo A100 80 GB, A6000 48 GB, o un H100/H200 con almeno 40 GB gratis. Lo eseguiamo sul nostro H200 (141 GB totali) ma ancora sventra il resto dei modelli caricati per chiamata perché è il singolo colpo più pesante sulla scatola.

Question 10

C'e' un'API?

Accepted Answer

Sì POST JSON o multipart a /v1/multimodal/lance/ on api.free.ai with {task: "t2i" | "image_edit" | "t2v" | "vqa," prompt: "...", image: <upload> or image_url: "/static/outputs/..."}. Bearer auth via sviluppatore API keys. Response include job_id, output URL, e share_token. /api/ ha esempi di curl per task.

Question 11

Perché "sperimentale"? Questo rimarrà libero?

Accepted Answer

Segniamo Lance sperimentale perché la latenza a carico freddo significa che non è una grande misura per il traffico ad alto volume ogni chiamata sfratta la flotta calda e ricarica. Possiamo aggiungere un livello "caldo Lance" più tardi se l'uso giustifica la dedicazione di uno slot, o possiamo aggiungere un secondo H200 specificamente per i modelli unificati. Per ora è disponibile sulla stessa economia token del resto di Free.ai modelli auto-ospitati senza supplemento, solo il costo più alto per-chiamata token che riflette il tempo di GPU wall-clock.

Question 12

I miei prompt e upload vengono memorizzati o utilizzati per l'allenamento?

Accepted Answer

Le immagini caricate per l'edit di immagini e VQA vengono eliminate subito dopo il completamento dell'attività. Le uscite generate si siedono sul nostro CDN per 24 ore (7 giorni per gli utenti a pagamento) in modo da poter ri-scaricare da /account/?tab=history. Niente è condiviso con ByteDance (ByteDance) i pesi eseguiti localmente sul nostro hardware. Dettagli completi su /privacy/.

Dettagli del modello

Informazioni

Utilizzare tramite API

Confronta

FAQ

Dettagli del modello

Informazioni

Utilizzare tramite API

Confronta

FAQ

Ottieni 10.000 Token gratuiti

Aspetta. Ottieni 10K Token gratis!

Ne vuoi ancora?