ዝርዝሮች
ስለ
Lance 3B (unified) a ቅርጸት በByteDance የተገነባ ነው Cross-task research, prototyping pipelines that need image + video + edit + VQA from one model, "one model, four tasks" demos. Apache 2.0, commercial use OK. ላይ በጣም ጠንካራ ነው። በ Free.ai GPUs ላይ ራስ-ተስተናገደ - በዕለት ተዕለት ቶኬን ፑልዎ ላይ ነፃ ይሰራል (100 ቶኬኖች ለአንድ ጊዜ)። በApache 2.0 ስር ተዘጋጅቷል — የቢዝነስ ጥቅም በFree.ai ላይ ተፈቅዷል
ከAPI በመጠቀም
curl https://api.free.ai/v1/chat/ \
-H "Authorization: Bearer YOUR_KEY" \
-d '{"model":"lance-3b"}'
ጥያቄ
Lance ByteDance's 2025 Native Unified Multimodal Model ነው - 3B አፓቺ 2.0 ስር አክቲቭ ፓራሜትሮች. የክብደት አንድ ስብስቦች አራት ተግባራትን ይሸፍናል: ጽሑፍ→ ምስል (768×768), ምስል-ማስተካከል (768×768), ጽሑፍ→ ቪዲዮ (480p, እስከ 121 ፍሬሞች ≈ 5 ሰከንዶች), እና ምስል + ቪዲዮ ማወቅ (VQA, ርዕስ). በ Qwen-የተወሰደ LLM backbone ላይ የተገነባ በ Wan-ቪዲዮ VAE እና በ Qwen.5-VL ViT. በ Free.ai's H200 ላይ ያለ አፕስትሪም አቅራቢ, ምንም API ማርክፕ, እና ምንም የጥሪ ክፍያዎች ከቶኬን ብልጫዎ በላይ.
አብዛኛዎቹ የተከፈቱ ስታክዎች ለእያንዳንዱ ወለል ምርጥ ባለሙያውን ይመርጣሉ - SDXL ወይም FLUX ለቀድሞ ምስል ማምረት፣ Qwen-Image-Edit ለቀረጻዎች፣ Wan 2.2 ለቪዲዮ፣ Qwen.5-VL ለቪዥን-ቋንቋ አስተሳሰብ። Lance ለ cross-task coherence የእያንዳንዱን ስራ ጥራት ትንሽ ይሸጣል: ተመሳሳይ የውስጥ መግለጫ ሁሉንም ውጤት ያመጣል፣ ስለዚህ የምትፈጥረው ምስል እና ከዚያ የምትቀይር ስሪቱን ይይዛል፣ እና የ VQA ሞዴሉ ስለ ቪዲዮ ስለሚሰጠው የቋንቋ ሞዴል በተመሳሳይ ቼክፖይንት ይመሳሰላል። ለጥናት እና ለዲሞዎች ጥቅም ላይ ይውላል ከአንድ ተመሳሳይ ሞዴል ይልቅ ከአራት ቧንቧዎች ይልቅ.
ላንስን ይምረጡ: ከአንድ ሞዴል በስተቀር በምስል + ማቀናበር + ቪዲዮ ላይ ተመሳሳይ ስሜት ይፈልጋሉ፣ ብዙ-ታክቲክ ቧንቧን እና "አንድ ሞዴል" አቅጣጫን ይፈልጋሉ፣ ወይም በአንድነት ተግባር ላይ ፈቃድ መስጠት ያስፈልግዎታል። ባለሙያዎችን ይምረጡ: ከፍተኛ ጥራት ያለው የቀድሞ ምስል ጂን (FLUX.2 Klein > ላንስ በ> 768²), ረጅም / ከፍተኛ ጥራት ያለው ቪዲዮ (ዋን 2.2 TI2V-5B ወይም HunyuanVideo > ላንስ በ> 480p), ወይም በንግግር ውስጥ ፈጣን VQA (Qwen.5-VL ሁልጊዜ በ H200 ላይ ሙቅ ነው፣ ላንስ ቀዝቃዛ-መጫን አለበት) ይፈልጋሉ ፡፡
ጽሑፍ→ምስል እና ምስል-ማስተካከል: 5,000 ቶኬኖች (የ FLUX-ክፍል ምስል ጄን ይመሳሰላል). ጽሑፍ→ቪዲዮ: 15,000 ቶኬኖች (የ CogVideoX / Wan 5B ክፍል ይመሳሰላል). ምስል+ቪዲዮ VQA: 1,000 ቶኬኖች. የ SDXL (1,000) ከፍ ያለ ዋጋ የላንስን የከፋ የቀዝቃዛ-ጭነት ያመለክታል - ጥሪው ሁሉ የቀዝቃዛው ጦር መሳሪያዎችን ያወጣል እና የ 40 GB ክብደት ይጫናል, ይህም በውጤቱ ላይ 25-40 ሰከንዶችን ያጨምራል. እኛ ለሁሉም የግድግዳ ሰዓት GPU ጊዜ እንከፍላለን, ውጤት ብቻ አይደለም.
ከቀዝቃዛ-መጫን በኋላ (~25-40 ሰ)፡ ምስል ገን ~12-20 ሰ፣ ምስል ማስተካከል ~15-25 ሰ፣ ጽሑፍ→ቪዲዮ ~60-180 ሰ (num_frames ላይ የተመሠረተ)፣ VQA ~3-8 ሰ. የላንስ ጥሪ ሁሉ ሞዴሉን ቀዝቃዛ-ይጫናል ምክንያቱም በ H200 ላይ ከቀዝቃዛው ጦር መሳሪያዎች ጋር ሊኖር አይችልም ፣ ስለዚህ የቀዝቃዛው ጫና ጊዜው የእያንዳንዱ ጥሪ ክፍል ነው ፣ የመጀመሪያው ብቻ አይደለም ፡፡
ምስልን መፍጠር እና ምስልን ማቀናጀት በ 768×768 ላይ ተስተካክሏል. የቪዲዮ መፍጠር በ 480p (በተለይም 480×848 አቀማመጥ) ላይ ተስተካክሏል እና በ 121 ፍሬሞች (~5 ሰከንዶች በ 24 ፌክስ) ላይ ተቆርጧል. እነዚህ ላንስን የተማረባቸው ልዩነቶች ናቸው፤ የበለጠ ለማስቀመጥ በተለያዩ ሞዴሎች ላይ ማሳደግ ያስፈልጋል (ለምስሎች /image/upscaler/ ወይም ለቪዲዮዎች /video/upscaler/ ይሞክሩ)።
Janus (DeepSeek) እና Show-o በጋራ backbone ላይ ማወቅ እና መፍጠርን ወደ የተለያዩ ራስዎች ይከፋፍላሉ; Lance የበለጠ ጠንካራ ነው - የቀረበው የስራ ቶኬኖች ጋር የቀረበው የሥራ ቶኬኖች + የማወቅ ራስዎች አንድ ስብስብ ነው. Emu3 (BAAI) ሁሉንም ነገር እንደ ፒክስሎች ያሉ ልዩ ቶኬኖች አድርጎ ያሳያል ፣ ይህም ንጹህ የራስ-መለወጥ ቅርጸት ይሰጣል ግን በቋሚ ኮምፒውተር ላይ ዝቅተኛ ጥራት አለው ፡፡ Lance's pitch በ 3B ሰርተው የሚሠሩ პარაሜቶች እና በ ቫን የተገኘው VAE ውስጥ አራት-ሥራዎችን ያካተተ ነው ፣ ይህም ቪዲዮን በነፃነት ይይዛል (Janus እና Show-o ምስል-በእውነተኛ ጊዜ ብቻ ናቸው)።
አፓቺ 2.0 — ሁለቱም ክብደቶች (huggingface.co/bytedance-research/Lance) እና የ GitHub repo (github.com/bytedance/Lance). ምንም የክልል ገደብ የለም ፣ ምንም MAU cap ፣ ምንም ያልሆነ የኮሜርስ ተሳፋሪ ፣ ምንም የምርምር-በእርግጥ ክፍል የለም ፡፡ ውጤቶች ከማስተዳደር አፓቺ 2.0 የፍቃድ ጽሑፍ ውጭ ምንም የሮያልቲ ወይም የባለቤትነት ፍላጎቶች የሌላቸው የኮሜርስ ጥቅም ላይ ሊውሉ ይችላሉ ፡፡
40 GB በ ByteDance README ውስጥ. 3B አክቲቭ ፓራሜትስ ማታለል ናቸው - ሙሉ Qwen LLM + Wan VAE + Qwen.5-VL ViT ሁሉም በምስክርነት ይቀመጣሉ. ለራስ-አስተናጋጅ አንድ A100 80 GB, A6000 48 GB, ወይም H100 / H200 በ 40 GB ነፃ ጋር ያስፈልግዎታል. በ H200 (141 GB በሙሉ) ላይ እንሰራለን ነገር ግን በጥሪው ላይ ትልቁ የአንድ ፎቶ ነው.
አዎ - POST JSON ወይም multipart ወደ /v1/multimodal/lance / ላይ api.free.ai ጋር {task: "t2i" | "image_edit" | "t2v" | "vqa", prompt: "...", image: <upload> ወይም image_url: "/static/outputs/..."}. Bearer በኩል የዳበረው API ቁልፎች auth. መልስ job_id, output URL, እና share_token ያካትታል. /api/ ለ task curl ምሳሌዎች አሉት.
የላንስ ሙከራዎችን ስንጠቅስ የቀዝቃዛ-አልባነት ላታንሲ ማለት ለከፍተኛ መጠን ያለው ትራፊክ ትልቅ መሳሪያ አይደለም ማለት ነው - ሁሉም ጥሪ ሙቅ ጦርነቱን ያፈናቅላል እና ይጫናል. እኛ "ቀዝቃዛ ላንስን" ደረጃ በኋላ ላይ መጠቀም ስንችል ስሎት መስጠት ስንችል ወይም ለተደራጁ ሞዴሎች ሁለተኛውን H200 ልንጨምር እንችላለን. አሁንም እንደ Free.ai የራስ-አስተናጋጅ ሞዴሎች ተጨማሪ ክፍያ ሳይኖር በተመሳሳይ ቶኬን ኢኮኖሚ ላይ ይገኛል ፣ የግድግዳ ሰዓት የ GPU ጊዜን የሚያመለክት ከፍተኛ የጥሪ ቶኬን ዋጋ ብቻ ነው ፡፡
ለምስል-ማስተካከል እና ለቪኤክኤ የተጫኑ ምስሎች ስራው ከተጠናቀቀ በኋላ በፍጥነት ይታጠፋሉ. የተፈጠሩ ውጤቶች ለ 24 ሰዓታት (ለተከፍሉ ተጠቃሚዎች 7 ቀናት) በ CDN ላይ ይቀመጣሉ ስለዚህ ከ /account/?tab=history መውረድ ይችላሉ. ምንም ነገር ከ ByteDance ጋር አይጋራም - ክብደቶች በሃርድዌር ላይ በክልል ይሠራሉ. ሙሉ ዝርዝሮች በ /privacy/ ላይ ናቸው.