Q: چرا "توحید"؟ این با اجرای SDXL + یک ویرایشگر + Wan به صورت جداگانه چه تفاوتی دارد؟

بیشتر پشتههای باز بهترین متخصص را برای هر سطح انتخاب میکنند - SDXL یا FLUX برای تولید تصویر خام، Qwen-Image-Edit برای ویرایش، Wan 2.2 برای ویدئو، Qwen.5-VL برای استدلال زبان دید. Lance کمی از کیفیت هر وظیفه را برای هماهنگی بین وظایف معامله میکند: همان نمایش داخلی هر خروجی را تغذیه میکند، بنابراین تصویری که شما تولید میکنید و سپس ویرایش میکنید، سبک خود را حفظ میکند، و VQA که مدل در مورد یک ویدئو میدهد با مدل زبان در همان نقطه چک مطابقت دارد.

Q: لنس تحت چه مجوزي هست؟

آپاچی ۲٫۰ — هر دو وزنها (huggingface.co/bytedance-research/Lance) و گیتهاب (github.com/bytedance/Lance). بدون محدودیتهای جغرافیایی، بدون حد MAU، بدون سواری غیر تجاری، بدون شرط فقط تحقیقاتی. خروجیها برای استفاده تجاری شماست بدون هیچ حق امتیاز یا نیاز به ذکر منبع فراتر از متن مجوز استاندارد آپاچی ۲٫۰.

Question 1

لنس چيه؟

Accepted Answer

Lance is ByteDance's 2025 native unified multimodal model — 3B active parameters under Apache 2.0. One set of weights covers four tasks: text→image (768×768), image-edit (768×768), text→video (480p, up to 121 frames ≈ 5 seconds), and image+video understanding (VQA, captioning). Built on a Qwen2-derived LLM backbone with a Wan-Video VAE and a Qwen2.5-VL ViT. Self-hosted on Free.ai's H200 with no upstream provider, no API markup, and no per-call fees beyond your token balance.

Question 2

چرا "توحید"؟ این با اجرای SDXL + یک ویرایشگر + Wan به صورت جداگانه چه تفاوتی دارد؟

Accepted Answer

بیشتر پشته‌های باز بهترین متخصص را برای هر سطح انتخاب می‌کنند - SDXL یا FLUX برای تولید تصویر خام، Qwen-Image-Edit برای ویرایش، Wan 2.2 برای ویدئو، Qwen.5-VL برای استدلال زبان دید. Lance کمی از کیفیت هر وظیفه را برای هماهنگی بین وظایف معامله می‌کند: همان نمایش داخلی هر خروجی را تغذیه می‌کند، بنابراین تصویری که شما تولید می‌کنید و سپس ویرایش می‌کنید، سبک خود را حفظ می‌کند، و VQA که مدل در مورد یک ویدئو می‌دهد با مدل زبان در همان نقطه چک مطابقت دارد.

Question 3

کي بايد لنس رو در مقابل متخصصين انتخاب کنم؟

Accepted Answer

Lance را انتخاب کنید وقتی: شما یک سبک یکنواخت در تصویر + ویرایش + ویدئو از یک مدل می‌خواهید، شما یک خط لوله چند وظیفه‌ای را نمونه‌برداری می‌کنید و زاویه «یک مدل» اهمیت دارد، یا نیاز به مجوز دادن در جریان کار یکپارچه دارید. متخصصان را انتخاب کنید وقتی: شما بالاترین کیفیت تصویر خام (FLUX.2 Klein > Lance در>768²)، طولانی‌ترین / بالاترین کیفیت ویدئو (Wan 2.2 TI2V-5B یا HunyuanVideo > Lance در>480p)، یا سریع‌ترین VQA در چت (Qwen.5-VL همیشه در H200 گرم است، Lance باید بارگیری سرد باشد) را می‌خواهید.

Question 4

هر وظيفه ی لنس چقدر هزینه داره؟

Accepted Answer

متن→ تصویر و ویرایش تصویر: ۵۰۰۰ توکن (تطابق با FLUX-class image gen). متن→ ویدئوی: ۱۵۰۰۰ توکن (تطابق با CogVideoX / Wan 5B class). تصویر+ ویدئوی VQA: ۱۰۰۰ توکن. هزینه بالاتر نسبت به SDXL (۱۰۰۰) منعکس‌کننده بار سرد سنگین‌تر Lance است — هر تماس باقی‌مانده ناوگان گرم را اخراج می‌کند و ۴۰ گیگابایت وزن را بارگذاری مجدد می‌کند، که ۲۵-۴۰ ثانیه را در بالای خود استنتاج اضافه می‌کند.

Question 5

هر شغل چقدر طول ميکشه؟

Accepted Answer

بعد از بارگذاری سرد (~۲۵-۴۰ ثانیه): تصویر ~۱۲-۲۰ ثانیه، ویرایش تصویر ~۱۵-۲۵ ثانیه، متن→ویدئو ~۶۰-۱۸۰ ثانیه (بسته به عدد فریم‌ها)، VQA ~۳-۸ ثانیه هر فراخوان Lance مدل را بارگذاری سرد می‌کند زیرا نمی‌تواند با بقیه ناوگان گرم در H200 هم‌مکان شود، بنابراین تأخیر بارگذاری سرد بخشی از هر فراخوان است، نه تنها اولین.

Question 6

حداکثر اندازه/ طول خروجی چیست؟

Accepted Answer

تولید تصویر و ویرایش تصویر در ۷۶۸×۷۶۸ ثابت است. تولید ویدئو در ۴۸۰p ثابت است (معمولاً ۴۸۰×۸۴۸ مسطح) و حداکثر ۱۲۱ فریم (~۵ ثانیه در ۲۴ فریم در ثانیه). این وضوح‌هایی است که لنس در آن آموزش دیده است؛ فشار دادن بالاتر نیاز به مقیاس‌بندی از طریق یک مدل جداگانه دارد (/image/upscaler/ را برای تصاویر یا /video/upscaler/ را برای ویدئوها امتحان کنید).

Question 7

لنس چطور با جانوس، شو-او، ایمو۳ یا دیگر چندمدل‌های متحد مقایسه می‌شود؟

Accepted Answer

Janus (DeepSeek) و Show-o درک و تولید را به سرهای جداگانه در یک ستون فقرات مشترک تقسیم می‌کنند؛ Lance به صورت محکم‌تری متحد شده‌است - یک مجموعه از سرهای تولید + درک با نشانه‌های واضح وظیفه. Emu3 (BAAI) همه چیز را به عنوان نشانه‌های گسسته از جمله پیکسل‌ها نشان می‌دهد، که به آن تولید خود-بازگشتی تمیزتر می‌دهد اما کیفیت پایین‌تر در محاسبات ثابت.

Question 8

لنس تحت چه مجوزي هست؟

Accepted Answer

آپاچی ۲٫۰ — هر دو وزن‌ها (huggingface.co/bytedance-research/Lance) و گیت‌هاب (github.com/bytedance/Lance). بدون محدودیت‌های جغرافیایی، بدون حد MAU، بدون سواری غیر تجاری، بدون شرط فقط تحقیقاتی. خروجی‌ها برای استفاده تجاری شماست بدون هیچ حق امتیاز یا نیاز به ذکر منبع فراتر از متن مجوز استاندارد آپاچی ۲٫۰.

Question 9

چه نوع VRAM و سخت‌افزاری برای خود میزبانی نیاز دارد؟

Accepted Answer

حداقل ۴۰ گیگابایت برای README ByteDance. ۳B پارامترهای فعال فریبنده هستند - تمام Qwen LLM + Wan VAE + Qwen.5-VL ViT همه در حافظه با هم نشسته اند. برای خود میزبانی شما نیاز به یک A100 80 GB، A6000 48 GB، یا H100/H200 با حداقل ۴۰ گیگابایت آزاد دارید. ما آن را روی H200 خود اجرا کردیم (مجموع ۱۴۱ گیگابایت) اما هنوز بقیه مدل‌های بارگذاری شده را در هر تماس اخراج می‌کند زیرا سنگین‌ترین تک‌تیرانداز در جعبه است.

Question 10

یک API وجود دارد؟

Accepted Answer

بله — POST JSON یا چندبخشی به /v1/multimodal/lance/ در api.free.ai با {task: "t2i" | "image_edit" | "t2v" | "vqa", prompt: "...", image: <upload> or image_url: "/static/outputs/..."}.

Question 11

چرا "تجربوي"؟

Accepted Answer

We mark Lance experimental because cold-load latency means it's not a great fit for high-volume traffic — every call evicts the warm fleet and reloads. We may add a "warm Lance" tier later if usage justifies dedicating a slot, or we may add a second H200 specifically for unified models. For now it's available on the same token economy as the rest of Free.ai's self-hosted models with no surcharge, just the higher per-call token cost reflecting the wall-clock GPU time.

Question 12

آیا درخواست‌ها و بارگذاری‌های من ذخیره می‌شوند یا برای آموزش استفاده می‌شوند؟

Accepted Answer

تصاویر بارگذاری شده برای ویرایش تصویر و VQA بلافاصله پس از تکمیل وظیفه حذف می‌شوند. خروجی‌های تولید شده برای ۲۴ ساعت (۷ روز برای کاربران پرداختی) در CDN ما باقی می‌مانند، بنابراین می‌توانید از /account/?tab=history دوباره بارگیری کنید. هیچ چیز با ByteDance به اشتراک گذاشته نمی‌شود — وزن‌ها محلی روی سخت‌افزار ما اجرا می‌شوند. جزئیات کامل در /privacy/.

جزئیات مدل

در مورد

استفاده از طریق API

مقایسه

پرسش و پاسخ

جزئیات مدل

در مورد

استفاده از طریق API

مقایسه

پرسش و پاسخ

10000 توکن رایگان دریافت کنید

صبر کن - 10K توکن رایگان دریافت کن!

بيشتر ميخواي؟