Question 1

Que é Lance?

Accepted Answer

Lance é o modelo multimodal unificado nativo 2025 de ByteDance — 3B de parámetros activos baixo Apache 2. 0. Un conxunto de pesos cobre catro tarefas: texto→imaxe (768×768), edición de imaxes (768×768), texto→vídeo (480p, ata 121 fotogramas ≈ 5 segundos) e comprensión de imaxe+vídeo (VQA, subtítulos). Construído sobre unha estrutura LLM derivada de Qwen 2 cun VAE Wan- Video e un Qwen 2. 5- VL ViT. Auto- aloxado no H200 de Free.ai sen provedor de ascendente, sen marcaxe de API e sen taxas por chamada máis alá do seu saldo de token.

Question 2

Por que "unificado"? Como é diferente iso de executar SDXL + un editor + Wan por separado?

Accepted Answer

A maioría das pilas abertas escollen o mellor especialista para cada superficie: SDXL ou FLUX para xerar imaxes en bruto, Qwen - Image- Edit para edicións, Wan 2. 2 para vídeo, Qwen 2. 5- VL para raciocinio de linguaxe de visión. Lance troca un pouco de calidade por tarefa pola coherencia entre tarefas: a mesma representación interna alimenta cada saída, de xeito que unha imaxe que xere e logo edite conserva o seu estilo, e a VQA que o modelo dá sobre un vídeo coincide co modelo de linguaxe no mesmo punto de comprobación. Útil para investigacións e demostracións que se benefician dun modelo consistente en vez dun canle de catro.

Question 3

Cando debo escoller entre Lance e os especialistas?

Accepted Answer

Escolla Lance cando: queira un estilo consistente en imaxe + edición + vídeo dun modelo, estea a facer un prototipo dun proceso multitarefa e o ángulo « un modelo » sexa importante, ou precise licenzas permisivas no fluxo de traballo unificado. Escolla especialistas cando: queira a xeración de imaxes RAW de maior calidade (FLUX. 2 Klein > Lance a > 768²), o vídeo máis longo/ de maior calidade (Wan 2. 2 TI2V- 5B ou HunyuanVideo > Lance a > 480p), ou a VQA máis rápida no chat (Qwen 2. 5- VL está sempre quente no H200, Lance ten que cargalo a frio).

Question 4

Canto custa cada tarefa de Lance?

Accepted Answer

Texto→imaxe e edición de imaxes: 5. 000 tokens (corresponde á xeración de imaxes da clase FLUX). Texto→vídeo: 15. 000 tokens (corresponde á clase CogVideoX / Wan 5B). VQA de imaxe+vídeo: 1. 000 tokens. O custo máis alto con respecto a SDXL (1. 000) reflicte a carga fría máis pesada de Lance — cada chamada expulsa o resto da frota quente e recarga 40 GB de pesos, o que engade 25- 40 s enriba da propia inferencia. Facturamos o tempo total da GPU do reloxo de parede, non só a inferencia.

Question 5

Canto tempo leva cada tarefa?

Accepted Answer

Despois da carga fría (~25- 40 s): xeración da imaxe ~12- 20 s, edición da imaxe ~15- 25 s, texto→vídeo ~60- 180 s (dependendo de num_ frames), VQA ~3- 8 s. Cada chamada de Lance carga o modelo a frío porque non pode co- residir co resto da frota quente no H200, polo que o atraso da carga fría é parte de cada chamada, non só da primeira.

Question 6

Cal é o tamaño/ lonxitude máximo da saída?

Accepted Answer

A xeración e edición de imaxes está fixada en 768x768. A xeración de vídeo está fixada en 480p (normalmente 480x848 horizontal) e limitada a 121 fotogramas (~5 segundos a 24 fps). Estas son as resolucións nas que Lance foi adestrado; para ir máis alto requírese aumentar a resolución mediante un modelo separado (prove / image/ upscaler/ para imaxes ou / video/ upscaler/ para vídeos).

Question 7

Como se compara Lance con Janus, Show-o, Emu3 ou outros multimodais unificados?

Accepted Answer

Janus (DeepSeek) e Show- o dividen a comprensión e a xeración en cabezas separadas nunha estrutura compartida; Lance está máis unificado: un conxunto de cabezas de xeración+comprensión con símbolos de tarefas explícitas. Emu3 (BAAI) tokeniza todo como símbolos discretos, incluíndo píxeles, o que lle dá unha xeración autoregressiva máis limpa pero unha calidade máis baixa na computación fixa. O punto forte de Lance é a cobertura de catro tarefas en parámetros activos 3B máis o seu VAE derivado de Wan que xestiona o vídeo de forma nativa (Janus e Show- o só son imaxes).

Question 8

Que licenza ten Lance?

Accepted Answer

Apache 2. 0 — tanto os pesos (huggingface. co/ bytedance- research/ Lance) como o repositorio de GitHub (github. com/ bytedance/ Lance). Sen restricións territoriais, sen límite de MAU, sen rider non comercial, sen cláusula de só investigación. Os resultados son seus para uso comercial sen royalties ou requisitos de atribución alén do texto estándar da licenza Apache 2. 0.

Question 9

Que VRAM e hardware precisa para auto- aloxar?

Accepted Answer

40 GB mínimo segundo o README de ByteDance. Os parámetros activos 3B son engañosos — o Qwen LLM completo + Wan VAE + Qwen. 5- VL ViT están todos xuntos na memoria. Para auto- aloxar precisaría un só A100 de 80 GB, un A6000 de 48 GB, ou un H100/ H200 con polo menos 40 GB libres. Execútase no noso H200 (141 GB en total) pero aínda así expulsa o resto dos modelos cargados por chamada porque é o máis pesado da caixa.

Question 10

Hai unha API?

Accepted Answer

Si — POST JSON ou multipart a /v1/multimodal/lance/ en api.free.ai con {task: "t2i" | "image_edit" | "t2v" | "vqa", prompt: "...", image: <upload> ou image_url: "/static/outputs/..."}. Autenticación do portador mediante as chaves da API do desenvolvedor. A resposta inclúe job_id, URL de saída e share_token. /api/ ten exemplos curl por tarefa.

Question 11

Por que "experimental"?

Accepted Answer

Marcamos Lance como experimental porque a latencia de carga fría significa que non é unha boa opción para o tráfico de alto volume - cada chamada expulsa a frota quente e recarga. Poderemos engadir un nivel de « Lance quente » máis tarde se o uso xustifica dedicar un espazo, ou podemos engadir un segundo H200 especificamente para modelos unificados. Por agora está dispoñíbel na mesma economía de tokens que o resto dos modelos auto- hospedados do Free.ai sen recargos, só o custo máis alto por token de chamada que reflicte o tempo da GPU do reloxo de parede.

Question 12

Os meus avisos e envíos almacénanse ou utilízanse para adestramento?

Accepted Answer

As imaxes enviadas para a edición de imaxes e VQA son borradas inmediatamente despois de que a tarefa remate. As saídas xeradas permanecen na nosa CDN durante 24 horas (7 días para os usuarios de pago) para que poida volver a descargalas desde / account/? tab=history. Non se comparte nada con ByteDance, os pesos executanse localmente no noso hardware. Os detalles completos están en / privacy /.

Detalles do modelo

Acerca de

Empregar a través da API

Comparar

FAQ

Detalles do modelo

Acerca de

Empregar a través da API

Comparar

FAQ

Obteña 10. 000 fichas gratuítas

Agarde — Obteña 10K tokens gratuítos!

Queres máis?