Question 1

ماذا عن (لانس)؟

Accepted Answer

Lance is ByteDance's 2025 native unified multimodal model — 3B active parameters under Apache 2.0. One set of weights covers four tasks: text→image (768×768), image-edit (768×768), text→video (480p, up to 121 frames ≈ 5 seconds), and image+video understanding (VQA, captioning). Built on a Qwen2-derived LLM backbone with a Wan-Video VAE and a Qwen2.5-VL ViT. Self-hosted on Free.ai's H200 with no upstream provider, no API markup, and no per-call fees beyond your token balance.

Question 2

لماذا " موحد " ؟ كيف يختلف هذا عن تشغيل SDXL + محرر + Wan بشكل منفصل ؟

Accepted Answer

معظم المكدسات المفتوحة تختار أفضل متخصص لكل سطح - SDXL أو FLUX لتوليد الصور الخام، Qwen-Image-Edit للتحرير، وان 2.2 للفيديو، Qwen.5-VL للتفكير في لغة الرؤية. لانس يقوم ببعض المقايضة في الجودة لكل مهمة من أجل الاتساق عبر المهام: نفس التمثيل الداخلي يغذّي كل مخرج، لذا فإن الصورة التي تولدها ثم تحررها تحتفظ بأسلوبها، و VQA الذي يعطيه النموذج عن الفيديو يطابق نموذج اللغة في نفس نقطة التحقق. مفيد للبحوث والعروض الإيضاحية التي تستفيد من نموذج واحد متسق بدلاً من خط أنابيب من أربعة.

Question 3

متى يجب أن أختار (لانس) مقابل (الأخصائيين)؟

Accepted Answer

اختار Lance عندما: تريد أسلوبًا متسقاً عبر الصورة + التحرير + الفيديو من نموذج واحد، أو أنت تقوم بإنشاء نموذج أولي لخط أنابيب متعدد المهام وزاوية "نموذج واحد" مهمة، أو أنت بحاجة إلى ترخيص متساهل على تدفق العمل الموحد. اختار أخصائيين عندما: تريد أعلى جودة للصورة الخام (FLUX.2 Klein > Lance at >768²)، أطول / أعلى جودة للفيديو (Wan 2.2 TI2V-5B أو HunyuanVideo > Lance at >480p)، أو أسرع VQA في الدردشة (Qwen.5-VL دائمًا دافئ على H200، يجب على Lance تحميلها باردة).

Question 4

كم تكلف كل مهمة من مهام (لانس)؟

Accepted Answer

النص→صورة وتحرير الصور: 5000 رمز (يطابق صورة من فئة FLUX). النص→فيديو: 15000 رمز (يطابق فئة CogVideoX / Wan 5B). جودة الصورة + الفيديو: 1000 رمز. التكلفة الأعلى مقابل SDXL (1000) تعكس الحمل البارد الثقيل لـ Lance - كل مكالمة تطرد بقية الأسطول الدافئة وإعادة تحميل 40 جيجابايت من الأوزان، مما يضيف 25-40 ثانية على الاستنتاج نفسه. نحن نقوم بفرض رسوم على إجمالي وقت وحدة المعالجة المركزية لساعة الحائط، وليس الاستنتاج فقط.

Question 5

كم تستغرق كل مهمة؟

Accepted Answer

بعد الحمولة الباردة (~25-40 ثانية): صورة جن ~12-20 ثانية، تحرير الصورة ~15-25 ثانية، النص→فيديو ~60-180 ثانية (اعتمادا على num_frames)، VQA ~3-8 ثانية.كل استدعاء Lance تحميل بارد النموذج لأنه لا يمكن أن تعيش مع بقية الأسطول الدافئة على H200، وبالتالي تأخير الحمولة الباردة هو جزء من كل استدعاء، وليس فقط الأول.

Question 6

ما هو أقصى حجم / طول للخروج؟

Accepted Answer

يتم تثبيت توليد الصور وتحرير الصور عند 768 × 768. يتم تثبيت توليد الفيديو عند 480p (عادةً 480 × 848 مسطح) وبحدود 121 إطارًا (~ 5 ثوانٍ بمعدل 24 إطارًا في الثانية). هذه هي الدقة التي تم تدريبها على لانس؛ والدفع لأعلى يتطلب رفع الحجم عن طريق نموذج منفصل (جرب /image/upscaler/ للصور أو /video/upscaler/ للفيديو).

Question 7

كيف تقارن (لانس) بـ (جانوس) أو (شو-أو) أو (إيمو3) أو غيرها من الوسائط المتعددة الموحدة؟

Accepted Answer

Janus (DeepSeek) و Show-o يقسمان الفهم والتوليد إلى رؤوس منفصلة على عمود فقري مشترك؛ Lance موحد بشكل أكثر إحكاما - مجموعة واحدة من رؤوس التوليد + الفهم مع رموز مهام صريحة. Emu3 (BAAI) يرمز كل شيء كرمزات منفصلة بما في ذلك البكسلات، مما يعطيه توليد ذاتي تراجع أنظف ولكنه أقل جودة عند الحوسبة الثابتة.

Question 8

ما هو ترخيص (لانس) هل يمكنني استخدامه تجارياً؟

Accepted Answer

أباشي 2.0 — كل من الأوزان (huggingface.co/bytedance-research/Lance) ومستودعات غيت هوب (github.com/bytedance/Lance). لا قيود إقليمية، لا سقف لعدد المستخدمين، لا ركاب غير تجاريين، لا شرط للبحث فقط. المخرجات هي لك لاستخدامها تجاريا بدون حقوق أو متطلبات تصنيف خارج نص ترخيص أباشي 2.0 القياسي.

Question 9

ما هي ذاكرة العرض والمعدات التي تحتاجها للاستضافة الذاتية؟

Accepted Answer

الحد الأدنى 40 جيجا بايت لكل README من ByteDance. البارامترات النشطة 3B مضللة - كامل Qwen LLM + Wan VAE + Qwen.5-VL ViT جميعها تجلس في الذاكرة معًا. للاستضافة الذاتية ، ستحتاج إلى A100 واحد 80 جيجا بايت ، A6000 48 جيجا بايت ، أو H100 / H200 مع 40 جيجا بايت على الأقل من المساحة الحرة. نحن نشغله على H200 (141 جيجا بايت إجمالي) ولكنه لا يزال يطرد بقية النماذج المحملة لكل مكالمة لأنها الأثقل من الطلقة الواحدة على الصندوق.

Question 10

هل هناك اختبار دقيق؟

Accepted Answer

نعم — POST JSON أو multipart إلى /v1/multimodal/lance/ على api.free.ai مع {task: "t2i" | "image_edit" | "t2v" | "vqa", prompt: "...", image: <upload> or image_url: "/static/outputs/..."}.

Question 11

لماذا "تجريبي" هل سيبقى هذا مجاني؟

Accepted Answer

نحن نشير إلى أن Lance تجربي لأن تأخير الحمل البارد يعني أنه ليس مناسبًا جدًا لحركة المرور الكبيرة - كل مكالمة تطرد الأسطول الساخن وتعيد تحميله. قد نضيف طبقة "Warm Lance" لاحقًا إذا كان الاستخدام يبرر تخصيص مساحة، أو قد نضيف H200 ثانية تحديدًا للنماذج الموحدة. في الوقت الحالي، هو متاح على نفس الاقتصاد الرموزي مثل بقية نماذج Free.ai المستضافة ذاتيًا دون تكلفة إضافية، فقط التكلفة العالية لكل رمز مكالمة تعكس وقت وحدة المعالجة المركزية لساعة الحائط.

Question 12

هل تُخزّن بياناتي وتحميلاتي أو تُستخدم لأغراض التدريب؟

Accepted Answer

يتم حذف الصور المحملة لتحرير الصور و VQA فورا بعد الانتهاء من المهمة. المخرجات المولدة تبقى على شبكة CDN لدينا لمدة 24 ساعة (7 أيام للمستخدمين المدفوعين) بحيث يمكنك إعادة التنزيل من /account/?tab=history. لا شيء يتم تقاسمه مع ByteDance - الأوزان تجري محليا على معداتنا. التفاصيل الكاملة في /privacy/.

تفاصيل النموذج

عن

الاستخدام عن طريق واجهة البرمجة

المقارنة

الأسئلة المتكررة

تفاصيل النموذج

عن

الاستخدام عن طريق واجهة البرمجة

المقارنة

الأسئلة المتكررة

حصل على 10,000 رموز مجانية

انتظر - احصل على 10K رموز مجانية!

تريد المزيد؟