الدردشات

لا توجد محادثات سابقة

Free.ai (self-hosted) ~100 رموز/رسائل
Lance 3B (unified)

مرحباً، أنا Lance 3B (unified). اسألني أي شيء

~100 رموز/رسائل · المجموع اليومي أدخل للإرسال
تفاصيل النموذج

تفاصيل النموذج

مقدم الخدمة Free.ai (self-hosted)
أنشأها ByteDance
الفئة Multimodal
ألف - السياق 32768 tokens
التكلفة ~100 رموز/رسائل · المجموع اليومي

عن

Lance 3B (unified) هو a نموذج الذكاء الاصطناعي الذي بنته ByteDance. أفضل لاعب في Cross-task research, prototyping pipelines that need image + video + edit + VQA from one model, "one model, four tasks" demos. Apache 2.0, commercial use OK.. استضافة ذاتية على Free.ai GPUs — يعمل مجانا ضد مجمع الرموز اليومية (100 tokens لكل استخدام). تم إصداره تحت Apache 2.0 — الاستخدام التجاري مسموح به على Free.ai.

الاستخدام عن طريق واجهة البرمجة

curl https://api.free.ai/v1/chat/ \
  -H "Authorization: Bearer YOUR_KEY" \
  -d '{"model":"lance-3b"}'
وثائق API

الأسئلة المتكررة

Lance is ByteDance's 2025 native unified multimodal model — 3B active parameters under Apache 2.0. One set of weights covers four tasks: text→image (768×768), image-edit (768×768), text→video (480p, up to 121 frames ≈ 5 seconds), and image+video understanding (VQA, captioning). Built on a Qwen2-derived LLM backbone with a Wan-Video VAE and a Qwen2.5-VL ViT. Self-hosted on Free.ai's H200 with no upstream provider, no API markup, and no per-call fees beyond your token balance.

معظم المكدسات المفتوحة تختار أفضل متخصص لكل سطح - SDXL أو FLUX لتوليد الصور الخام، Qwen-Image-Edit للتحرير، وان 2.2 للفيديو، Qwen.5-VL للتفكير في لغة الرؤية. لانس يقوم ببعض المقايضة في الجودة لكل مهمة من أجل الاتساق عبر المهام: نفس التمثيل الداخلي يغذّي كل مخرج، لذا فإن الصورة التي تولدها ثم تحررها تحتفظ بأسلوبها، و VQA الذي يعطيه النموذج عن الفيديو يطابق نموذج اللغة في نفس نقطة التحقق. مفيد للبحوث والعروض الإيضاحية التي تستفيد من نموذج واحد متسق بدلاً من خط أنابيب من أربعة.

اختار Lance عندما: تريد أسلوبًا متسقاً عبر الصورة + التحرير + الفيديو من نموذج واحد، أو أنت تقوم بإنشاء نموذج أولي لخط أنابيب متعدد المهام وزاوية "نموذج واحد" مهمة، أو أنت بحاجة إلى ترخيص متساهل على تدفق العمل الموحد. اختار أخصائيين عندما: تريد أعلى جودة للصورة الخام (FLUX.2 Klein > Lance at >768²)، أطول / أعلى جودة للفيديو (Wan 2.2 TI2V-5B أو HunyuanVideo > Lance at >480p)، أو أسرع VQA في الدردشة (Qwen.5-VL دائمًا دافئ على H200، يجب على Lance تحميلها باردة).

النص→صورة وتحرير الصور: 5000 رمز (يطابق صورة من فئة FLUX). النص→فيديو: 15000 رمز (يطابق فئة CogVideoX / Wan 5B). جودة الصورة + الفيديو: 1000 رمز. التكلفة الأعلى مقابل SDXL (1000) تعكس الحمل البارد الثقيل لـ Lance - كل مكالمة تطرد بقية الأسطول الدافئة وإعادة تحميل 40 جيجابايت من الأوزان، مما يضيف 25-40 ثانية على الاستنتاج نفسه. نحن نقوم بفرض رسوم على إجمالي وقت وحدة المعالجة المركزية لساعة الحائط، وليس الاستنتاج فقط.

بعد الحمولة الباردة (~25-40 ثانية): صورة جن ~12-20 ثانية، تحرير الصورة ~15-25 ثانية، النص→فيديو ~60-180 ثانية (اعتمادا على num_frames)، VQA ~3-8 ثانية.كل استدعاء Lance تحميل بارد النموذج لأنه لا يمكن أن تعيش مع بقية الأسطول الدافئة على H200، وبالتالي تأخير الحمولة الباردة هو جزء من كل استدعاء، وليس فقط الأول.

يتم تثبيت توليد الصور وتحرير الصور عند 768 × 768. يتم تثبيت توليد الفيديو عند 480p (عادةً 480 × 848 مسطح) وبحدود 121 إطارًا (~ 5 ثوانٍ بمعدل 24 إطارًا في الثانية). هذه هي الدقة التي تم تدريبها على لانس؛ والدفع لأعلى يتطلب رفع الحجم عن طريق نموذج منفصل (جرب /image/upscaler/ للصور أو /video/upscaler/ للفيديو).

Janus (DeepSeek) و Show-o يقسمان الفهم والتوليد إلى رؤوس منفصلة على عمود فقري مشترك؛ Lance موحد بشكل أكثر إحكاما - مجموعة واحدة من رؤوس التوليد + الفهم مع رموز مهام صريحة. Emu3 (BAAI) يرمز كل شيء كرمزات منفصلة بما في ذلك البكسلات، مما يعطيه توليد ذاتي تراجع أنظف ولكنه أقل جودة عند الحوسبة الثابتة.

أباشي 2.0 — كل من الأوزان (huggingface.co/bytedance-research/Lance) ومستودعات غيت هوب (github.com/bytedance/Lance). لا قيود إقليمية، لا سقف لعدد المستخدمين، لا ركاب غير تجاريين، لا شرط للبحث فقط. المخرجات هي لك لاستخدامها تجاريا بدون حقوق أو متطلبات تصنيف خارج نص ترخيص أباشي 2.0 القياسي.

الحد الأدنى 40 جيجا بايت لكل README من ByteDance. البارامترات النشطة 3B مضللة - كامل Qwen LLM + Wan VAE + Qwen.5-VL ViT جميعها تجلس في الذاكرة معًا. للاستضافة الذاتية ، ستحتاج إلى A100 واحد 80 جيجا بايت ، A6000 48 جيجا بايت ، أو H100 / H200 مع 40 جيجا بايت على الأقل من المساحة الحرة. نحن نشغله على H200 (141 جيجا بايت إجمالي) ولكنه لا يزال يطرد بقية النماذج المحملة لكل مكالمة لأنها الأثقل من الطلقة الواحدة على الصندوق.

نعم — POST JSON أو multipart إلى /v1/multimodal/lance/ على api.free.ai مع {task: "t2i" | "image_edit" | "t2v" | "vqa", prompt: "...", image: <upload> or image_url: "/static/outputs/..."}.

نحن نشير إلى أن Lance تجربي لأن تأخير الحمل البارد يعني أنه ليس مناسبًا جدًا لحركة المرور الكبيرة - كل مكالمة تطرد الأسطول الساخن وتعيد تحميله. قد نضيف طبقة "Warm Lance" لاحقًا إذا كان الاستخدام يبرر تخصيص مساحة، أو قد نضيف H200 ثانية تحديدًا للنماذج الموحدة. في الوقت الحالي، هو متاح على نفس الاقتصاد الرموزي مثل بقية نماذج Free.ai المستضافة ذاتيًا دون تكلفة إضافية، فقط التكلفة العالية لكل رمز مكالمة تعكس وقت وحدة المعالجة المركزية لساعة الحائط.

يتم حذف الصور المحملة لتحرير الصور و VQA فورا بعد الانتهاء من المهمة. المخرجات المولدة تبقى على شبكة CDN لدينا لمدة 24 ساعة (7 أيام للمستخدمين المدفوعين) بحيث يمكنك إعادة التنزيل من /account/?tab=history. لا شيء يتم تقاسمه مع ByteDance - الأوزان تجري محليا على معداتنا. التفاصيل الكاملة في /privacy/.

Love this tool? Share it!

تقييم هذه الصفحة