Chat

Nudda chat passata

Free.ai (self-hosted) ~100 tokens/msg
Lance 3B (unified)

Saluti! Lance 3B (unified). Chiedi mi tuttu.

~100 tokens/msg · pool giornalieru Inviari
Dettagli di u mudellu

Dettagli di u mudellu

Ospitatu su Free.ai (self-hosted)
Criatu da ByteDance
Categoria Multimodal
Contenutu 32768 tokens
Costu ~100 tokens/msg · pool giornalieru

A propositu

Lance 3B (unified) is a Modellu built by ByteDance. U più forti à Cross-task research, prototyping pipelines that need image + video + edit + VQA from one model, "one model, four tasks" demos. Apache 2.0, commercial use OK.. Auto-ospitatu in Free.ai GPU - corre gratuitamente contr'à u vostru pool di token giornalieru (100 tokens per usu). Rilasciatu sottu Apache 2.0 — usu cummerciale permessu in Free.ai.

Usare via API

curl https://api.free.ai/v1/chat/ \
  -H "Authorization: Bearer YOUR_KEY" \
  -d '{"model":"lance-3b"}'
Documenti API

FAQ

Lance hè u mudellu multimodale unificatu nativu 2025 di ByteDance - 3B parametri attivi sottu Apache 2.0. Un gruppu di pesi copre quattru compiti: testu→imagine (768×768), editazione di l'imagine (768×768), testu→video (480p, finu à 121 fotogrammi ≈ 5 secondi) è comprensione di l'imagine + video (VQA, dittitulazione). Costruitu nantu à una spina dorsale LLM derivata da Qwen cù un Wan-Video VAE è un Qwen.5-VL ViT. Auto-ospitatu in Free.ai's H200 senza fornitore upstream, senza marcatura API, è senza tariffi per chiamata oltre u vostru saldu di token.

A magghiu parti di li stack aperti sceglinu u megghiu specialista pi ogni superficia — SDXL o FLUX pi la ginirazziuni di l'imaggini crude, Qwen-Image-Edit pi l'edizzioni, Wan 2.2 pi lu video, Qwen.5-VL pi lu raggiunamentu di u linguaggiu di visioni. Lance scambia un pocu di qualità pi ogni compitu pi la coerenza tra i compiti: la stissa rapprisintazzioni interna alimenta ogni output, accussì n'imaggini ca si genera e poi si edita mantini u so stili, e u VQA ca u mudellu duna pi un video currispondi a lu mudellu di lingua in lu stissu checkpoint. Utili pi ricerca e dimustrazioni ca si beneficianu di un mudellu coerenti cchiù ca di un pipeline di quattru.

Sceglite Lance quandu: vulete un stile coerente trà l'imaghjini + l'edizzioni + u video da un mudellu, state prototipendu un pipeline multi-task è l'angolazione "unu mudellu" conta, o avete bisognu di licenze permissive in u flussu di travagliu unificatu. Sceglite i specialisti quandu: vulete a generazione di immagini crude di a massima qualità (FLUX.2 Klein > Lance à >768²), u video di a massima qualità / più longu (Wan 2.2 TI2V-5B o HunyuanVideo > Lance à >480p), o u VQA più veloce in chat (Qwen.5-VL hè sempre caldu in H200, Lance deve esse caricatu à freddu).

Testu→imaggini e editazione di l'imaggini: 5.000 token (cunfurmi cu la generazioni di l'imaggini di classe FLUX). Testu→vidìu: 15.000 token (cunfurmi cu la classe CogVideoX / Wan 5B). VQA di l'imaggini+vidìu: 1.000 token. U costu cchiù altu rispettu a SDXL (1.000) rifletti u caricamentu freddu cchiù pesante di Lance — ogni chiamata sfusa u restu di a flotta calda e ricarica 40 GB di pesi, chi agghiunge 25-40 s in cima a l'infirenza stissa. Stimu fatturendu u tempu GPU di l'orologiu di a muratura, nun sulu l'infirenza.

Dopu u caricamentu à freddu (~ 25-40 s): generazione di l'imaghjini ~ 12-20 s, editazione di l'imaghjini ~ 15-25 s, testu → video ~ 60-180 s (secondu num_frames), VQA ~ 3-8 s. Ogni chiamata Lance carica u mudellu à freddu perchè ùn pò micca co-residente cù u restu di a flotta calda in H200, dunque u ritardo di caricamentu à freddu face parte di ogni chiamata, micca solu a prima.

A generazioni di l'imaggini è l'edizzioni di l'imaggini sò fissati a 768×768. A generazione di u video hè fissata a 480p (tipicamente 480×848 orizzontale) è limitata a 121 fotogrammi (~5 siconni a 24 fps). Sti sò e risoluzioni in cui Lance era addestratu; per ghjunghje à una risuluzioni cchiù alta ci vole à scalari versu u cchiù altu ntramiti un mudellu separatu (pruvate /image/upscaler/ pi l'imaggini o /video/upscaler/ pi li video).

Janus (DeepSeek) e Show-o spartenu a cumpitenza è a generazione in teste distinte nantu à un backbone cunnivisu; Lance hè più unificatu - un gruppu di teste di cumpitenza + generazione cù tokens di compiti espliciti. Emu3 (BAAI) tokenizes tuttu cum'è tokens discreti cumpresi i pixel, chì li dà una generazione autoregressiva più pulita ma una qualità più bassa à u calculu fissu. U pitch di Lance hè a copertura di quattru compiti in 3B parami attivi più u so VAE derivatu da Wan chì gestisce u video nativamente (Janus e Show-o sò solu immagini).

Apache 2.0 — sia i pesi (huggingface.co/bytedance-research/Lance) sia u repositoriu GitHub (github.com/bytedance/Lance). Nessuna restrizzioni territoriali, nisun limitu di MAU, nisun rider non-commerciale, nisun'altra clausula di ricerca. L'output sò vostri per l'usu cummerciale senza royalties o requisiti di attribuzione oltre u testu standard di licenza Apache 2.0.

40 GB minimu per u README di ByteDance. I 3B parami attivi sò ingannevoli - u Qwen LLM + Wan VAE + Qwen.5-VL ViT sanu sanu si trovanu tutti in memoria. Per auto-ospitate avete bisognu di un singulu A100 80 GB, A6000 48 GB, o un H100 / H200 cù almenu 40 GB liberi. L'aghju eseguitu nantu à u nostru H200 (141 GB totali) ma ancora sfugge u restu di i modelli caricati per chiamata perchè hè u più pesante single-shot in a scatula.

Sì — POST JSON o multipart à /v1/multimodal/lance/ in api.free.ai cù {task: "t2i" | "image_edit" | "t2v" | "vqa", prompt: "...", image: <upload> o image_url: "/static/outputs/..."}. L'autentificazione di u purtadori attraversu i chiavi API di sviluppatore. A risposta include job_id, output URL, e share_token. /api/ hà esempi curl per task.

Marcemu Lance sperimentale perchè a latenza di carica fredda significa chì ùn hè micca una grande adattazione per u trafficu à altu voluminu - ogni chiamata espulsa a flotta calda è ricarica. Pudemu aghjunghje un livellu "warm Lance" più tardi se l'usu giustifica a dedicazione di un slot, o pudemu aghjunghje un secondu H200 specificamente per i modelli unificati. Per avà hè disponibile in a stessa economia di token cum'è u restu di i modelli auto-ospitati di Free.ai senza sovrapprezzu, solu u costu di token per chiamata più altu riflettendu u tempu GPU di l'orologio di a parete.

L'imaghjini caricati pi l'edizzioni di l'imaghjini e VQA sò eliminati immediatamente dopu a fini di u compitu. L'outputs generati sò in u nostru CDN pi 24 ore (7 ghjorni pi l'utenti pagati) accussì si pò scaricà di novu da /account/?tab=history. Nulla hè spartutu cu ByteDance — i pesi sò caricati localmenti supra u nostru hardware. Più dettagli in /privacy/.

Amuri Free.ai? Dì i vostri amichi!

Vota sta pàggina