মডেল বিবরণ
পরিচিতি
Lance 3B (unified) হচ্ছে an AI মডেল যা ByteDance দ্বারা নির্মিত। Cross-task research, prototyping pipelines that need image + video + edit + VQA from one model, "one model, four tasks" demos. Apache 2.0, commercial use OK.-এ সবচেয়ে শক্তিশালী। Self-hosted on Free.ai GPUs — runs free against your daily token pool (100 tokens প্রতি ব্যবহার). Released under Apache 2.0 — commercial use permitted on Free.ai.
API ব্যবহার করো
curl https://api.free.ai/v1/chat/ \
-H "Authorization: Bearer YOUR_KEY" \
-d '{"model":"lance-3b"}'
ফ্যাক্টর
Lance হচ্ছে ByteDance এর ২০২৫ সালের একীভূত মাল্টিমোডাল মডেল - ৩বি সক্রিয় প্যারামিটার আপাচি ২. ০ এর অধীনে। একটি ওজনের সেট চারটি কাজকে আবৃত করে: টেক্সট→চিত্র (৭৬৮×৭৬৮), ছবি-সম্পাদন (৭৬৮×৭৬৮), টেক্সট→ভিডিও (৪৮০পি, ১২১ ফ্রেম পর্যন্ত ≈ ৫ সেকেন্ড), এবং ছবি+ভিডিও বুঝতে পারার ক্ষমতা (ভিকেএ, ক্যাপশনিং)। এটি বানানো হয়েছে Qwen-এর উপর ভিত্তি করে যা LLM এর পেছনের অংশ, যার সাথে আছে ওয়ান-ভিডিও VAE এবং Qwen. 5-VL ViT। এটি Free.ai এর H200 এ স্ব-হোস্ট করা হয়েছে, কোন আপস্ট্রিম প্রদানকারী নেই, কোন API মারকিং নেই, এবং আপনার টোকেন ভারসাম্য ছাড়া কোন কল ফি নেই।
বেশিরভাগ উন্মুক্ত স্ট্যাক প্রতিটি পৃষ্ঠের জন্য সেরা বিশেষজ্ঞকে বেছে নেয় - কাঁচা ছবি উৎপাদনের জন্য SDXL অথবা FLUX, সম্পাদনার জন্য Qwen-Image-Edit, ভিডিও তৈরির জন্য Wan 2.2, দৃষ্টি-ভাষা যুক্তিবিদ্যার জন্য Qwen.5-VL। Lance ক্রস-টাস্কের জন্য প্রতিটি কাজের গুণমানের কিছুটা বিনিময় করে: একই অভ্যন্তরীণ প্রতিনিধিত্ব প্রত্যেকটি আউটপুটকে খাওয়ায়, তাই আপনি যে ছবিটি তৈরি করেন এবং তারপর সম্পাদনা করেন তা তার শৈলী বজায় রাখে, এবং VQA মডেলটি একটি ভিডিও সম্পর্কে একই চেকপোইন্টে ভাষা মডেলের সাথে মিল রাখে। গবেষণা এবং ডেমোর জন্য উপকারী যা চারটি পাইপলাইনের পরিবর্তে একটি স্থায়ী মডেল থেকে উপকৃত হয়।
Lance নির্বাচন করুন যখন: আপনি এক মডেল থেকে ছবি + সম্পাদনা + ভিডিও এর মধ্যে স্থায়ী স্টাইল চান, আপনি একটি বহু-কাজ পাইপলাইনের প্রটোটাইপিং করছেন এবং "একটি মডেল" কোণটি গুরুত্বপূর্ণ, অথবা আপনার একত্রিত ওয়ার্কফ্লোতে অনুমতিমূলক লাইসেন্সিং প্রয়োজন। বিশেষজ্ঞদের নির্বাচন করুন যখন: আপনি সর্বোচ্চ গুণমানের কাঁচা ছবি (FLUX.2Klein > Lance at >768²), দীর্ঘতম / সর্বোচ্চ গুণমানের ভিডিও (Wan 2.2 TI2V-5B বা HunyuanVideo > Lance at >480p), অথবা চ্যাটে দ্রুততম VQA চান (Qwen.5-VL H200-এ সবসময় উষ্ণ, Lance-কে শীতল-লোড করতে হবে)।
টেক্সট→চিত্র এবং ছবি সম্পাদনা: ৫,০০০ টোকেন (FLUX-শ্রেণীর ছবির জিন এর সাথে মিলবে) টেক্সট→ভিডিও: ১৫,০০০ টোকেন (CogVideoX / Wan ৫B শ্রেণীর সাথে মিলবে) ছবি+ভিডিও VQA: ১,০০০ টোকেন। SDXL এর তুলনায় (১,০০০) উচ্চতর খরচটি Lance-এর ভারী cold-load-এর প্রতিফলন করে - প্রতিটি কল উষ্ণ ফ্লিটের বাকি অংশকে বহিষ্কার করে এবং ৪০ GB ওজন পুনরায় লোড করে, যা অনুমানের উপর ২৫-৪০ সেকেন্ড যোগ করে। আমরা মোট ওয়াল-ক্লক GPU সময়ের জন্য বিলিং করছি, শুধু অনুমানের জন্য নয়।
কোল্ড লোডের পর (~২৫-৪০ সেকেন্ড): ছবি তৈরি ~১২-২০ সেকেন্ড, ছবি সম্পাদনা ~১৫-২৫ সেকেন্ড, টেক্সট→ভিডিও ~৬০-১৮০ সেকেন্ড (num_frames এর উপর নির্ভর করে), VQA ~৩-৮ সেকেন্ড। প্রতিটি লেন্স কল মডেলকে কোল্ড লোড করে, কারণ এটি H200 এর বাকি উষ্ণ ফ্লোটের সাথে সহ-অবস্থিত হতে পারে না, তাই কোল্ড লোড বিলম্ব প্রতিটি কলের অংশ, শুধু প্রথম কলের নয়।
ছবি তৈরি এবং ছবি সম্পাদনা ৭৬৮×৭৬৮ এ নির্ধারিত। ভিডিও তৈরি ৪৮০পি (সাধারণত ৪৮০×৮৪৮ আন্ডারগ্রাউন্ড) এ নির্ধারিত এবং ১২১ ফ্রেম (~৫ সেকেন্ড ২৪ ফ্রেম প্রতি সেকেন্ডে) এ সীমাবদ্ধ। এই রেজোলিউশনে ল্যান্স প্রশিক্ষিত হয়েছে; উচ্চতর রেজোলিউশনে যেতে হলে আলাদা মডেল ব্যবহার করে আউটস্কেলিং করা প্রয়োজন (ছবির জন্য /image/upscaler/ অথবা ভিডিও জন্য /video/upscaler/ ব্যবহার করুন)।
Janus (DeepSeek) এবং Show-o একটি শেয়ার করা ব্যাকবোন-এ বুঝতে এবং উৎপাদন করতে পৃথক মাথায় বিভক্ত; Lance আরো একত্রিত - একটি নির্দিষ্ট কাজের টোকেন সহ একটি সেট প্রজন্ম + বুঝতে মাথা। Emu3 (BAAI) পিক্সেল সহ সবকিছুকে বিচ্ছিন্ন টোকেন হিসাবে টোকেন করে, যা এটিকে পরিষ্কার স্ব-পশ্চাৎমুখী উৎপাদন করে কিন্তু নির্দিষ্ট কম্পিউটিং-এ কম গুণমানের। Lance-এর পিচ হল 3B সক্রিয় পরামিতি সহ চারটি কাজের কভারেজ এবং তার Wan-এর উৎস VAE যা ভিডিওকে স্থানীয়ভাবে পরিচালনা করে (Janus এবং Show-o শুধুমাত্র ছবি)।
আপাচি ২. ০ — উভয় ওজন (huggingface. co/bytedance-research/Lance) এবং গিটহাব রেপো (github. com/bytedance/Lance)। কোন অঞ্চলগত সীমাবদ্ধতা নেই, কোন MAU ক্যাপ নেই, কোন অবাণিজ্যিক চালক নেই, কেবল গবেষণার জন্য কোন শর্ত নেই। আউটপুট বাণিজ্যিকভাবে ব্যবহারের জন্য আপনার, কোন রাইটিং বা আনুমানিক আপাচি ২. ০ লাইসেন্স টেক্সটের বাইরে কোন উল্লেখযোগ্যতা প্রয়োজন নেই।
বাইটড্যান্সের রিডমি অনুযায়ী কমপক্ষে ৪০ জিবি। ৩বি সক্রিয় পরামিতিগুলো প্রতারণামূলক – পূর্ণ Qwen LLM + Wan VAE + Qwen.5-VL ViT সবগুলো একসাথে মেমরিতে বসেছে। স্ব-হোস্টিং করার জন্যে আপনার প্রয়োজন হবে একটি এ১০০ ৮০ জিবি, এ৬০০০ ৪৮ জিবি, অথবা একটি এ১০০/এ২০০ যার অন্তত ৪০ জিবি ফ্রি জায়গা থাকবে। আমরা এটি আমাদের এ২০০-এ চালিয়েছি (মোট ১৪১ জিবি) কিন্তু এটি এখনও প্রতিটি কলের জন্যে বাকি লোড করা মডেলগুলোকে বহিষ্কার করে, কারণ এটি বক্সের সবচেয়ে ভারী একক-শট।
হ্যাঁ — api.free.ai-এ /v1/multimodal/lance/-এ JSON অথবা মাল্টিপার্টের মাধ্যমে POST {task: "t2i" | "image_edit" | "t2v" | "vqa", প্রম্পট: "...", image: <upload> অথবা image_url: "/static/outputs/..."}। ডেভেলপার API কী ব্যবহার করে প্রমাণীকরণ। উত্তরে job_id, আউটপুট URL এবং share_token অন্তর্ভুক্ত। /api/-তে প্রতিটি কাজের জন্য কর্লের উদাহরণ রয়েছে।
আমরা Lance-কে পরীক্ষামূলক হিসেবে চিহ্নিত করেছি কারণ cold-load latency-এর অর্থ হচ্ছে এটি উচ্চ পরিমাণের ট্রাফিকের জন্য খুব একটা উপযুক্ত নয় - প্রতিটি কল উষ্ণ ফ্লিটকে বহিষ্কার করে এবং পুনরায় লোড করে। আমরা পরে "উষ্ণ Lance" স্তর যোগ করতে পারি যদি ব্যবহার একটি স্লট বরাদ্দ করার যুক্তিযুক্ত করে, অথবা আমরা একত্রিত মডেলগুলির জন্য বিশেষভাবে একটি দ্বিতীয় H200 যোগ করতে পারি। এখন এটি Free.ai-এর বাকি স্ব-হোস্টকৃত মডেলগুলির মতোই টোকেন অর্থনীতিতে উপলব্ধ, কোন অতিরিক্ত খরচ ছাড়াই, শুধুমাত্র প্রতি কলের উচ্চতর টোকেন খরচটি ওয়াল-ক্লক GPU সময় প্রতিফলিত করে।
ছবি সম্পাদনা এবং ভিকেএ-র জন্য আপলোড করা ছবিগুলো কাজ শেষ হওয়ার পরপরই মুছে ফেলা হয়। তৈরিকৃত আউটপুট ২৪ ঘণ্টার জন্য আমাদের সিডিএন-এ থাকে (পয়সা দিয়ে ব্যবহারকারীদের জন্য ৭ দিন) যাতে আপনি /account/?tab=history থেকে আবার ডাউনলোড করতে পারেন। বাইটেড্যান্সের সাথে কিছুই শেয়ার করা হয় না - আমাদের হার্ডওয়্যারে স্থানীয়ভাবে ওজন চালানো হয়। সম্পূর্ণ বিবরণ /privacy/-এ পাওয়া যায়।