Детали за модела
За
__FREEAI_PH_Lead{article_____freeai_ph_category}, построена от ByteDance. Най-силният в Cross-task research, prototyping pipelines that need image + video + edit + VQA from one model, "one model, four tasks" demos. Apache 2.0, commercial use OK.. Самоу домакин на Free.ai GPU — тече свободен срещу ежедневния си резервоар за жетони (100 žeтони за употреба). Освободена под {licence} — търговска употреба, разрешена на Free.ai.
Използване чрез API
curl https://api.free.ai/v1/chat/ \
-H "Authorization: Bearer YOUR_KEY" \
-d '{"model":"lance-3b"}'
Сравняване
Често задавани въпроси
Ланс е унифициален модел на BaytDance 2025 — 3B активни параметри под Apache 2.0. Един набор от тежести обхваща четири задачи: text→image (7668×768), image-edit (768/768), text→video (480p, до 121 рамка ± 5 секунди) и image+video разбиране (VQA, надписи). Построен на Qwen-находящ се LLM гръбнач с Wan-Video VAE и Qwen.5-VL ViT. Самостоятелно хостиран на Free.ai H200 без доставчик нагоре, без API маркировка и без такси за перкауроване над вашия символен баланс.
Повечето отворени стокове избират най-добрия специалист за всяка повърхност — SDXL или FLUX за сурово поколение на изображения, Qwen-Image-Edit за редактиране, Wan 2.2 за видео, Qwen.5-VL за разсъждаване на визията. Lance търгува малко качество на задача за съгласуваност на кръстосаните задачи: едно и също вътрешно представяне храни всеки изход, така че снимката, която генерирате и след това редактира своя стил, и VQA моделът дава за видео съвпада с езиковия модел в същия контролен пункт. Полезно за изследвания и демо, които се ползват от един последователен модел, а не от тръбопровод на четири.
Изберете Ланс, когато: искате последователен стил по изображение + редактиране + видео от един модел, вие сте прототипиране на многозадачен трубопровод и "еден модел" ъгълови въпроси, или се нуждаете от допустими лицензиране на унифицирания работен поток. Изберете специалисти, когато: искате най-високо качество сурово изображение ген (FLUX.2 Klein > Ланс на >7682), най-дълго / най-високо качество видео (Wan 2.2 TI2V-5B или HunyuanVideo > Lance at >480p), или най-бърз VQA в чат (Qwen.5-VL е винаги топло на H200, Ланс трябва да студено зареждане).
Text→Image and image-edit: 5000 жетона (сравнява FLUX-class image gen). Text→видео: 15 000 жетона (сравнява CogVideoX / Wan 5B клас). Image+video VQA: 1000 жетона. По-високата цена срещу SDXL (1 000) отразява по-тежкия студен товар на Ланс – всеки повик изселва останалата част от топлия флот и повторно натоварва 40 GB тежести, което добавя 25-40 с на върха на самата инференция. Ние сме начисляване за пълна стена-часова GPU време, не само за преминаване.
След студено натоварване (~25-40 s): изображение gen ~12-20 s, изображение редактиране ~15-25 s, text→видео ~60-180 s (в зависимост от num_frames), VQA ~3-8 s. Всеки Ланс нарича студено натоварване на модела, защото той не може да сърезидент с останалата топла флота на H200, така че забавянето на студено натоварване е част от всяко повикване, не само първия.
Генерирането на изображения и редактирането на изображения са фиксирани на 768×768. Видео генерирането е фиксирано на 480p (обикновено 48×848 пейзаж) и ограничено на 121 кадри (~5 секунди при 24 кг). Това са резолюциите, които Ланс е трениран; по-високо изискват повишаване чрез отделен модел (проба /image/upscraler/ за изображения или /video/upscraler/ за видео).
Janus (DeepSeek) и Show-o разделя разбирането и поколението на отделни глави на общ гръбначник; Ланс е по-строго обединен — един набор от генерация+разбиращи глави с изрични задачи жетони. Emu3 (BAAI) символизира всичко като дискретни жетони, включително пиксели, което му дава по-чисто автоматично регресивно поколение, но по-ниско качество при фиксирани изчисления. Пътят на Ланс е покритието с четири задачи в 3B активни парами плюс нейната Wan-находяща VAE, която се справя с видео натурално (Janus и Show-o са само образи).
Apache 2.0 — както тежестите (huggingface.co/bytedance-search/Lance) и GitHub repo (github.com/bytedance/Lance). Без териториални ограничения, без МАУ капачка, без некоммерчески ездач, без клауза за научни изследвания. Резултатите са ваши, за да се използват търговски без хонорари или изисквания за присвояване извън стандартния текст на лиценза Apache 2.0.
40 GB минимум на байтденс README. 3B активните парами са измамливи – пълните Qwen LLM + Wan VAE + Qwen.5-VL ViT всички седят заедно в памет. За да се самостоятелно се нуждаете от един A100 80 GB, A6000 48 GB, или H100/H200 с най-малко 40 GB безплатно. Пускаме го на общото H200 (141 GB), но той все още изхвърля останалите заредени модели на повикване, защото това е най-голямата единична снимка на кутията.
Да — POST JSON или multipart to /v1/multimodal/lance/ on api.free.ai with {task: "t2i" "image_edit" "t2v" "vqa", бърз: "...", изображение: <upload> или image_url: "/static/outputs /..."}. Носител автентифициране чрез разработчик API ключове. Отговорът включва job_id, изходен URL и share_token. /api/ има къдри примери за задача.
Ние маркираме Ланс експериментален, защото латенцията на студения товар означава, че не е много подходящ за високо обемен трафик — всеки повик изселва топлия флот и презареждане. Можем да добавим "топлия Ланс" ниво по-късно, ако използването оправдава отделяне на слот, или можем да добавим второ H200 специално за единни модели. За сега той е на разположение в същата жетонова икономика като останалите Free.ai на самодомашен модели без добавка, само по-високата цена на жетон за всеки повикване отразява стено-часовото време на GPU.
Качени изображения за изображението и VQA се изтриват незабавно след завършването на задачата. Генерирани изходи седят на нашия CDN за 24 часа (7 дни за платените потребители), така че да можете да преизтеглите от /account /?tab=history. Нищо не се споделя с BayteDance — теглото работи локално върху хардуера ни. Пълни детайли на /privacy /.