Question 1

ল্যান্স কি?

Accepted Answer

Lance হচ্ছে ByteDance এর ২০২৫ সালের একীভূত মাল্টিমোডাল মডেল - ৩বি সক্রিয় প্যারামিটার আপাচি ২. ০ এর অধীনে। একটি ওজনের সেট চারটি কাজকে আবৃত করে: টেক্সট→চিত্র (৭৬৮×৭৬৮), ছবি-সম্পাদন (৭৬৮×৭৬৮), টেক্সট→ভিডিও (৪৮০পি, ১২১ ফ্রেম পর্যন্ত ≈ ৫ সেকেন্ড), এবং ছবি+ভিডিও বুঝতে পারার ক্ষমতা (ভিকেএ, ক্যাপশনিং)। এটি বানানো হয়েছে Qwen-এর উপর ভিত্তি করে যা LLM এর পেছনের অংশ, যার সাথে আছে ওয়ান-ভিডিও VAE এবং Qwen. 5-VL ViT। এটি Free.ai এর H200 এ স্ব-হোস্ট করা হয়েছে, কোন আপস্ট্রিম প্রদানকারী নেই, কোন API মারকিং নেই, এবং আপনার টোকেন ভারসাম্য ছাড়া কোন কল ফি নেই।

Question 2

কেন "সমষ্টিক"? SDXL + সম্পাদক + Wan আলাদাভাবে চালানোর থেকে এটা কিভাবে আলাদা?

Accepted Answer

বেশিরভাগ উন্মুক্ত স্ট্যাক প্রতিটি পৃষ্ঠের জন্য সেরা বিশেষজ্ঞকে বেছে নেয় - কাঁচা ছবি উৎপাদনের জন্য SDXL অথবা FLUX, সম্পাদনার জন্য Qwen-Image-Edit, ভিডিও তৈরির জন্য Wan 2.2, দৃষ্টি-ভাষা যুক্তিবিদ্যার জন্য Qwen.5-VL। Lance ক্রস-টাস্কের জন্য প্রতিটি কাজের গুণমানের কিছুটা বিনিময় করে: একই অভ্যন্তরীণ প্রতিনিধিত্ব প্রত্যেকটি আউটপুটকে খাওয়ায়, তাই আপনি যে ছবিটি তৈরি করেন এবং তারপর সম্পাদনা করেন তা তার শৈলী বজায় রাখে, এবং VQA মডেলটি একটি ভিডিও সম্পর্কে একই চেকপোইন্টে ভাষা মডেলের সাথে মিল রাখে। গবেষণা এবং ডেমোর জন্য উপকারী যা চারটি পাইপলাইনের পরিবর্তে একটি স্থায়ী মডেল থেকে উপকৃত হয়।

Question 3

আমি কখন ল্যান্সকে বেছে নেব?

Accepted Answer

Lance নির্বাচন করুন যখন: আপনি এক মডেল থেকে ছবি + সম্পাদনা + ভিডিও এর মধ্যে স্থায়ী স্টাইল চান, আপনি একটি বহু-কাজ পাইপলাইনের প্রটোটাইপিং করছেন এবং "একটি মডেল" কোণটি গুরুত্বপূর্ণ, অথবা আপনার একত্রিত ওয়ার্কফ্লোতে অনুমতিমূলক লাইসেন্সিং প্রয়োজন। বিশেষজ্ঞদের নির্বাচন করুন যখন: আপনি সর্বোচ্চ গুণমানের কাঁচা ছবি (FLUX.2Klein > Lance at >768²), দীর্ঘতম / সর্বোচ্চ গুণমানের ভিডিও (Wan 2.2 TI2V-5B বা HunyuanVideo > Lance at >480p), অথবা চ্যাটে দ্রুততম VQA চান (Qwen.5-VL H200-এ সবসময় উষ্ণ, Lance-কে শীতল-লোড করতে হবে)।

Question 4

প্রতিটি লেন্সের কাজের খরচ কত?

Accepted Answer

টেক্সট→চিত্র এবং ছবি সম্পাদনা: ৫,০০০ টোকেন (FLUX-শ্রেণীর ছবির জিন এর সাথে মিলবে) টেক্সট→ভিডিও: ১৫,০০০ টোকেন (CogVideoX / Wan ৫B শ্রেণীর সাথে মিলবে) ছবি+ভিডিও VQA: ১,০০০ টোকেন। SDXL এর তুলনায় (১,০০০) উচ্চতর খরচটি Lance-এর ভারী cold-load-এর প্রতিফলন করে - প্রতিটি কল উষ্ণ ফ্লিটের বাকি অংশকে বহিষ্কার করে এবং ৪০ GB ওজন পুনরায় লোড করে, যা অনুমানের উপর ২৫-৪০ সেকেন্ড যোগ করে। আমরা মোট ওয়াল-ক্লক GPU সময়ের জন্য বিলিং করছি, শুধু অনুমানের জন্য নয়।

Question 5

প্রতিটি কাজ কতক্ষণ সময় নেয়?

Accepted Answer

কোল্ড লোডের পর (~২৫-৪০ সেকেন্ড): ছবি তৈরি ~১২-২০ সেকেন্ড, ছবি সম্পাদনা ~১৫-২৫ সেকেন্ড, টেক্সট→ভিডিও ~৬০-১৮০ সেকেন্ড (num_frames এর উপর নির্ভর করে), VQA ~৩-৮ সেকেন্ড। প্রতিটি লেন্স কল মডেলকে কোল্ড লোড করে, কারণ এটি H200 এর বাকি উষ্ণ ফ্লোটের সাথে সহ-অবস্থিত হতে পারে না, তাই কোল্ড লোড বিলম্ব প্রতিটি কলের অংশ, শুধু প্রথম কলের নয়।

Question 6

আউটপুট ফাইলের সর্বোচ্চ মাপ/ দৈর্ঘ্য কত?

Accepted Answer

ছবি তৈরি এবং ছবি সম্পাদনা ৭৬৮×৭৬৮ এ নির্ধারিত। ভিডিও তৈরি ৪৮০পি (সাধারণত ৪৮০×৮৪৮ আন্ডারগ্রাউন্ড) এ নির্ধারিত এবং ১২১ ফ্রেম (~৫ সেকেন্ড ২৪ ফ্রেম প্রতি সেকেন্ডে) এ সীমাবদ্ধ। এই রেজোলিউশনে ল্যান্স প্রশিক্ষিত হয়েছে; উচ্চতর রেজোলিউশনে যেতে হলে আলাদা মডেল ব্যবহার করে আউটস্কেলিং করা প্রয়োজন (ছবির জন্য /image/upscaler/ অথবা ভিডিও জন্য /video/upscaler/ ব্যবহার করুন)।

Question 7

Janus, Show-o, Emu3, বা অন্য একীভূত multimodals এর সাথে Lance কিভাবে তুলনা করা যায়?

Accepted Answer

Janus (DeepSeek) এবং Show-o একটি শেয়ার করা ব্যাকবোন-এ বুঝতে এবং উৎপাদন করতে পৃথক মাথায় বিভক্ত; Lance আরো একত্রিত - একটি নির্দিষ্ট কাজের টোকেন সহ একটি সেট প্রজন্ম + বুঝতে মাথা। Emu3 (BAAI) পিক্সেল সহ সবকিছুকে বিচ্ছিন্ন টোকেন হিসাবে টোকেন করে, যা এটিকে পরিষ্কার স্ব-পশ্চাৎমুখী উৎপাদন করে কিন্তু নির্দিষ্ট কম্পিউটিং-এ কম গুণমানের। Lance-এর পিচ হল 3B সক্রিয় পরামিতি সহ চারটি কাজের কভারেজ এবং তার Wan-এর উৎস VAE যা ভিডিওকে স্থানীয়ভাবে পরিচালনা করে (Janus এবং Show-o শুধুমাত্র ছবি)।

Question 8

ল্যান্সের লাইসেন্স কি, আমি কি এটা বাণিজ্যিকভাবে ব্যবহার করতে পারি?

Accepted Answer

আপাচি ২. ০ — উভয় ওজন (huggingface. co/bytedance-research/Lance) এবং গিটহাব রেপো (github. com/bytedance/Lance)। কোন অঞ্চলগত সীমাবদ্ধতা নেই, কোন MAU ক্যাপ নেই, কোন অবাণিজ্যিক চালক নেই, কেবল গবেষণার জন্য কোন শর্ত নেই। আউটপুট বাণিজ্যিকভাবে ব্যবহারের জন্য আপনার, কোন রাইটিং বা আনুমানিক আপাচি ২. ০ লাইসেন্স টেক্সটের বাইরে কোন উল্লেখযোগ্যতা প্রয়োজন নেই।

Question 9

স্ব-হোস্ট করার জন্য কি ধরনের VRAM এবং হার্ডওয়্যার এর প্রয়োজন?

Accepted Answer

বাইটড্যান্সের রিডমি অনুযায়ী কমপক্ষে ৪০ জিবি। ৩বি সক্রিয় পরামিতিগুলো প্রতারণামূলক – পূর্ণ Qwen LLM + Wan VAE + Qwen.5-VL ViT সবগুলো একসাথে মেমরিতে বসেছে। স্ব-হোস্টিং করার জন্যে আপনার প্রয়োজন হবে একটি এ১০০ ৮০ জিবি, এ৬০০০ ৪৮ জিবি, অথবা একটি এ১০০/এ২০০ যার অন্তত ৪০ জিবি ফ্রি জায়গা থাকবে। আমরা এটি আমাদের এ২০০-এ চালিয়েছি (মোট ১৪১ জিবি) কিন্তু এটি এখনও প্রতিটি কলের জন্যে বাকি লোড করা মডেলগুলোকে বহিষ্কার করে, কারণ এটি বক্সের সবচেয়ে ভারী একক-শট।

Question 10

কোন API আছে?

Accepted Answer

হ্যাঁ — api.free.ai-এ /v1/multimodal/lance/-এ JSON অথবা মাল্টিপার্টের মাধ্যমে POST {task: "t2i" | "image_edit" | "t2v" | "vqa", প্রম্পট: "...", image: <upload> অথবা image_url: "/static/outputs/..."}। ডেভেলপার API কী ব্যবহার করে প্রমাণীকরণ। উত্তরে job_id, আউটপুট URL এবং share_token অন্তর্ভুক্ত। /api/-তে প্রতিটি কাজের জন্য কর্লের উদাহরণ রয়েছে।

Question 11

"পরীক্ষামূলক" কেন?

Accepted Answer

আমরা Lance-কে পরীক্ষামূলক হিসেবে চিহ্নিত করেছি কারণ cold-load latency-এর অর্থ হচ্ছে এটি উচ্চ পরিমাণের ট্রাফিকের জন্য খুব একটা উপযুক্ত নয় - প্রতিটি কল উষ্ণ ফ্লিটকে বহিষ্কার করে এবং পুনরায় লোড করে। আমরা পরে "উষ্ণ Lance" স্তর যোগ করতে পারি যদি ব্যবহার একটি স্লট বরাদ্দ করার যুক্তিযুক্ত করে, অথবা আমরা একত্রিত মডেলগুলির জন্য বিশেষভাবে একটি দ্বিতীয় H200 যোগ করতে পারি। এখন এটি Free.ai-এর বাকি স্ব-হোস্টকৃত মডেলগুলির মতোই টোকেন অর্থনীতিতে উপলব্ধ, কোন অতিরিক্ত খরচ ছাড়াই, শুধুমাত্র প্রতি কলের উচ্চতর টোকেন খরচটি ওয়াল-ক্লক GPU সময় প্রতিফলিত করে।

Question 12

আমার প্রম্পট এবং আপলোড কি সংরক্ষণ করা হবে অথবা প্রশিক্ষণের জন্য ব্যবহার করা হবে?

Accepted Answer

ছবি সম্পাদনা এবং ভিকেএ-র জন্য আপলোড করা ছবিগুলো কাজ শেষ হওয়ার পরপরই মুছে ফেলা হয়। তৈরিকৃত আউটপুট ২৪ ঘণ্টার জন্য আমাদের সিডিএন-এ থাকে (পয়সা দিয়ে ব্যবহারকারীদের জন্য ৭ দিন) যাতে আপনি /account/?tab=history থেকে আবার ডাউনলোড করতে পারেন। বাইটেড্যান্সের সাথে কিছুই শেয়ার করা হয় না - আমাদের হার্ডওয়্যারে স্থানীয়ভাবে ওজন চালানো হয়। সম্পূর্ণ বিবরণ /privacy/-এ পাওয়া যায়।

মডেল বিবরণ

পরিচিতি

API ব্যবহার করো

তুলনা

ফ্যাক্টর

মডেল বিবরণ

পরিচিতি

API ব্যবহার করো

তুলনা

ফ্যাক্টর

১০,০০০ বিনামূল্যে টোকেন পাবেন

অপেক্ষা করুন — ১০K বিনামূল্যে টোকেন পাবেন!

আরো চাও?