جزئیات مدل
در مورد
Lance 3B (unified) is a مدل هوش مصنوعی built by ByteDance. «بهترین فیلمهای سال ۲۰۱۵» (فارسی). Self-hosted on Free.ai GPUs — runs free against your daily token pool (100 tokens هر استفاده). Released under Apache 2.0 — commercial use permitted on Free.ai.
استفاده از طریق API
curl https://api.free.ai/v1/chat/ \
-H "Authorization: Bearer YOUR_KEY" \
-d '{"model":"lance-3b"}'
پرسش و پاسخ
Lance is ByteDance's 2025 native unified multimodal model — 3B active parameters under Apache 2.0. One set of weights covers four tasks: text→image (768×768), image-edit (768×768), text→video (480p, up to 121 frames ≈ 5 seconds), and image+video understanding (VQA, captioning). Built on a Qwen2-derived LLM backbone with a Wan-Video VAE and a Qwen2.5-VL ViT. Self-hosted on Free.ai's H200 with no upstream provider, no API markup, and no per-call fees beyond your token balance.
بیشتر پشتههای باز بهترین متخصص را برای هر سطح انتخاب میکنند - SDXL یا FLUX برای تولید تصویر خام، Qwen-Image-Edit برای ویرایش، Wan 2.2 برای ویدئو، Qwen.5-VL برای استدلال زبان دید. Lance کمی از کیفیت هر وظیفه را برای هماهنگی بین وظایف معامله میکند: همان نمایش داخلی هر خروجی را تغذیه میکند، بنابراین تصویری که شما تولید میکنید و سپس ویرایش میکنید، سبک خود را حفظ میکند، و VQA که مدل در مورد یک ویدئو میدهد با مدل زبان در همان نقطه چک مطابقت دارد.
Lance را انتخاب کنید وقتی: شما یک سبک یکنواخت در تصویر + ویرایش + ویدئو از یک مدل میخواهید، شما یک خط لوله چند وظیفهای را نمونهبرداری میکنید و زاویه «یک مدل» اهمیت دارد، یا نیاز به مجوز دادن در جریان کار یکپارچه دارید. متخصصان را انتخاب کنید وقتی: شما بالاترین کیفیت تصویر خام (FLUX.2 Klein > Lance در>768²)، طولانیترین / بالاترین کیفیت ویدئو (Wan 2.2 TI2V-5B یا HunyuanVideo > Lance در>480p)، یا سریعترین VQA در چت (Qwen.5-VL همیشه در H200 گرم است، Lance باید بارگیری سرد باشد) را میخواهید.
متن→ تصویر و ویرایش تصویر: ۵۰۰۰ توکن (تطابق با FLUX-class image gen). متن→ ویدئوی: ۱۵۰۰۰ توکن (تطابق با CogVideoX / Wan 5B class). تصویر+ ویدئوی VQA: ۱۰۰۰ توکن. هزینه بالاتر نسبت به SDXL (۱۰۰۰) منعکسکننده بار سرد سنگینتر Lance است — هر تماس باقیمانده ناوگان گرم را اخراج میکند و ۴۰ گیگابایت وزن را بارگذاری مجدد میکند، که ۲۵-۴۰ ثانیه را در بالای خود استنتاج اضافه میکند.
بعد از بارگذاری سرد (~۲۵-۴۰ ثانیه): تصویر ~۱۲-۲۰ ثانیه، ویرایش تصویر ~۱۵-۲۵ ثانیه، متن→ویدئو ~۶۰-۱۸۰ ثانیه (بسته به عدد فریمها)، VQA ~۳-۸ ثانیه هر فراخوان Lance مدل را بارگذاری سرد میکند زیرا نمیتواند با بقیه ناوگان گرم در H200 هممکان شود، بنابراین تأخیر بارگذاری سرد بخشی از هر فراخوان است، نه تنها اولین.
تولید تصویر و ویرایش تصویر در ۷۶۸×۷۶۸ ثابت است. تولید ویدئو در ۴۸۰p ثابت است (معمولاً ۴۸۰×۸۴۸ مسطح) و حداکثر ۱۲۱ فریم (~۵ ثانیه در ۲۴ فریم در ثانیه). این وضوحهایی است که لنس در آن آموزش دیده است؛ فشار دادن بالاتر نیاز به مقیاسبندی از طریق یک مدل جداگانه دارد (/image/upscaler/ را برای تصاویر یا /video/upscaler/ را برای ویدئوها امتحان کنید).
Janus (DeepSeek) و Show-o درک و تولید را به سرهای جداگانه در یک ستون فقرات مشترک تقسیم میکنند؛ Lance به صورت محکمتری متحد شدهاست - یک مجموعه از سرهای تولید + درک با نشانههای واضح وظیفه. Emu3 (BAAI) همه چیز را به عنوان نشانههای گسسته از جمله پیکسلها نشان میدهد، که به آن تولید خود-بازگشتی تمیزتر میدهد اما کیفیت پایینتر در محاسبات ثابت.
آپاچی ۲٫۰ — هر دو وزنها (huggingface.co/bytedance-research/Lance) و گیتهاب (github.com/bytedance/Lance). بدون محدودیتهای جغرافیایی، بدون حد MAU، بدون سواری غیر تجاری، بدون شرط فقط تحقیقاتی. خروجیها برای استفاده تجاری شماست بدون هیچ حق امتیاز یا نیاز به ذکر منبع فراتر از متن مجوز استاندارد آپاچی ۲٫۰.
حداقل ۴۰ گیگابایت برای README ByteDance. ۳B پارامترهای فعال فریبنده هستند - تمام Qwen LLM + Wan VAE + Qwen.5-VL ViT همه در حافظه با هم نشسته اند. برای خود میزبانی شما نیاز به یک A100 80 GB، A6000 48 GB، یا H100/H200 با حداقل ۴۰ گیگابایت آزاد دارید. ما آن را روی H200 خود اجرا کردیم (مجموع ۱۴۱ گیگابایت) اما هنوز بقیه مدلهای بارگذاری شده را در هر تماس اخراج میکند زیرا سنگینترین تکتیرانداز در جعبه است.
بله — POST JSON یا چندبخشی به /v1/multimodal/lance/ در api.free.ai با {task: "t2i" | "image_edit" | "t2v" | "vqa", prompt: "...", image: <upload> or image_url: "/static/outputs/..."}.
We mark Lance experimental because cold-load latency means it's not a great fit for high-volume traffic — every call evicts the warm fleet and reloads. We may add a "warm Lance" tier later if usage justifies dedicating a slot, or we may add a second H200 specifically for unified models. For now it's available on the same token economy as the rest of Free.ai's self-hosted models with no surcharge, just the higher per-call token cost reflecting the wall-clock GPU time.
تصاویر بارگذاری شده برای ویرایش تصویر و VQA بلافاصله پس از تکمیل وظیفه حذف میشوند. خروجیهای تولید شده برای ۲۴ ساعت (۷ روز برای کاربران پرداختی) در CDN ما باقی میمانند، بنابراین میتوانید از /account/?tab=history دوباره بارگیری کنید. هیچ چیز با ByteDance به اشتراک گذاشته نمیشود — وزنها محلی روی سختافزار ما اجرا میشوند. جزئیات کامل در /privacy/.