Question 1

Co je Lance?

Accepted Answer

Lance je ByteDance v roce 2025 nativní jednotný multimodální model 3B aktivní parametry pod Apache 2.0. Jedna sada vah pokrývá čtyři úkoly: text→obraz (768×768), image-edit (768×768), text→video (480p, až 121 snímků 5 sekund), a image+video porozumění (VQA, titulkování). Postavena na Qwen- odvozená LLM páteř s Wan-Video VAE a Qwen.5-VL ViT. Samo-hosted na Free.ai H200 H200 bez protiproudového poskytovatele, bez API značky a žádné per-call poplatky nad váš token bilance.

Question 2

Proč "unified"? Jak se to liší od spuštění SDXL + editor + Wan samostatně?

Accepted Answer

Většina otevřených stohů vybere nejlepšího specialistu pro každý povrch SDXL nebo FLUX pro raw image generation, Qwen-Image-Edit pro editace, Wan 2.2 pro video, Qwen.5-VL pro uvažování jazyka vize. Lance obchoduje trochu kvality per-task pro křížovou soudržnost: stejné vnitřní zastoupení feeds každý výstup, takže obraz, který vytvoříte a pak edituje si zachovává svůj styl, a VQA model dává o video odpovídá jazykovému modelu ve stejném checkpointu. Užitečné pro výzkum a dema, které těží z jednoho konzistentního modelu spíše než potrubí čtyř.

Question 3

Kdy si mám vybrat Lance vs specialisty?

Accepted Answer

Vyberte si Lance, když: chcete konzistentní styl přes obrázek + editovat + video z jednoho modelu, jste prototyping více-task potrubí a "jeden model" úhel záleží, nebo budete potřebovat povolenou licenci na jednotný pracovní postup. Vyberte specialisty, pokud: chcete nejvyšší kvalitu surového obrazu gen (FLUX.2 Klein > Lance při >7682), nejdelší / nejvyšší kvalita videa (Wan 2.2 TI2V-5B nebo HunyuanVideo > Lance na >480p), nebo nejrychlejší VQA v chatu (Qwen.5-VL je vždy teplý na H200, Lance má na studené zatížení).

Question 4

Kolik stojí každý úkol Lance?

Accepted Answer

Text→ image and image-edit: 5000 žetonů (matches FLUX-class image gen). Text→video: 15 000 žetonů (matches CogVideoX / Wan 5B class). Image+video VQA: 1 000 žetonů. Vyšší náklady vs SDXL (1 000) odráží Lance je těžší studený-load lávesa každý hovor vystěhuje zbytek teplého flotily a znovu načte 40 GB závaží, což přidává 25-40 s na vrcholu samotné konference.

Question 5

Jak dlouho každý úkol trvá?

Accepted Answer

Po studeném naložení (~25-40 s): image gen ~12-20 s, image edit ~15-25 s, text→video ~60-180 s (v závislosti na num_frames), VQA ~3-8 s. Každý Lance volá studený zatížení modelu, protože nemůže spolu-rezident se zbytkem teplé flotily na H200, takže zpoždění studeného zatížení je součástí každého volání, ne jen první.

Question 6

Jaká je maximální velikost výstupu / délka?

Accepted Answer

Generace obrazu a editace obrazu jsou fixovány na 768×768. Generace videa je fixována na 480p (typicky 480×848 krajina) a limitována na 121 snímků (~5 sekund při 24 fps). Jedná se o rozlišení, na kterých byl Lance vyškolen; tlačení výše vyžaduje zvýšení pomocí samostatného modelu (zkouška /image/upscaler/ pro obrázky nebo /video/upscaler/ pro videa).

Question 7

Jak se Lance porovnává s Janusem, Show-o, Emu3, nebo jinými jednotnými multimodály?

Accepted Answer

Janus (DeepSeek) a Show-o split porozumění a generace do samostatných hlav na sdílené páteři; Lance je pevněji sjednocená jedna sada generování + understanding heads s explicitním úkolem žetony. Emu3 (BAAI) tokenizuje vše jako diskrétní žetony včetně pixelů, což mu dává čistší autoregresivní generaci, ale nižší kvalitu při pevném výpočtu. Lance's pitch is the four-task recovery in 3B active params plus jeho Wan- odvozený VAE, který zpracovává video nativní (Janus a Show-o jsou obraz-only).

Question 8

Pod jakou licencí je Lance, můžu ji použít obchodně?

Accepted Answer

Apache 2.0 - obě váhy (objetíface.co/bytedance-výzkum/Lance) a GitHub repo (github.com/bytedance/Lance). Žádná územní omezení, žádné MAU cap, žádný non-commercial jezdec, žádný výzkum-pouze doložka. Výstupy jsou vaše používat komerčně bez licenčních poplatků nebo alokační požadavky nad standardní Apache 2.0 licenční text.

Question 9

Jaký VRAM a hardware potřebuje k sebehostování?

Accepted Answer

40 GB minimum na ByteDance je README. 3B aktivní paramy jsou klamné, plné Qwen LLM + Wan VAE + Qwen,5-VL ViT všichni sedí v paměti společně. Chcete-li self-host, budete potřebovat jeden A100 80 GB, A6000 48 GB, nebo H100/H200 s alespoň 40 GB zdarma. Spouštíme to na našem H200 (141 GB celkem), ale to stále vystěhuje zbytek nabitých modelů na volání, protože je to nejtěžší single-shot na krabici.

Question 10

Je tam API?

Accepted Answer

Ano POST JSON nebo multipart to /v1/multimodal/lance/ on api.free.ai with {task: "t2i" "image_edit" "t2v" "vqa," inplication: "...", image: <upload > nebo image_url: "/static/outputs/...."}. Bearer auth prostřednictvím vývojářských API klíčů. Response included job_id, output URL, and share_token. /api/ has curl examples per problems.

Question 11

Proč "experimentální"?

Accepted Answer

Označíme Lance experimentální, protože studený náklad latency znamená, že to není skvělé vhodné pro velkoobjemový provoz, každý hovor vystěhuje teplé flotily a znovu nabije. Můžeme přidat "teplý Lance" úroveň později, pokud použití ospravedlňuje vymezení slotu, nebo můžeme přidat druhý H200 speciálně pro jednotné modely. Pro teď je k dispozici na stejné symbolické ekonomiky jako zbytek Free.ai je samo-hostilované modely bez příplatku, jen vyšší per-call token náklady odrážející zděné hodiny GPU čas.

Question 12

Jsou mé výzvy a nahrávky uloženy nebo používány pro výcvik?

Accepted Answer

Uploadované obrázky pro image-edit a VQA jsou smazány ihned po dokončení úkolu. Generované výstupy sedí na našem CDN po dobu 24 hodin (7 dní pro placené uživatele), takže můžete znovu stáhnout z /účtu/?tab=historie. Nic není sdíleno s ByteDancem  dírky běží lokálně na našem hardwaru. Plné detaily na /privacy/.

Podrobnosti o modelu

O aplikaci

Použití přes API

Porovnat

FAQ

Podrobnosti o modelu

O aplikaci

Použití přes API

Porovnat

FAQ

Získejte 10 000 svobodných žetonů

Počkej, získej 10K zdarma žetony!

Chceš víc?