Question 1

¿Qué es Lance?

Accepted Answer

Lance es el modelo multimodal unificado nativo de 2025 de ByteDance — parámetros activos 3B bajo Apache 2.0. Un conjunto de pesos cubre cuatro tareas: text→image (768×768), image-edit (768×768), text→video (480p, hasta 121 fotogramas 5 segundos), y image+video comprension (VQA, subtitulado). Construido sobre un Qwen-derivado de LLM columna vertebral con un Wan-Video VAE y un Qwen.5-VL ViT. Auto-hosted on Free.ai's H200 with no upstream provider, no API markup, and no per-callue fees allen de su balance simbólico.

Question 2

¿Por qué "unificado"? ¿Cómo es eso diferente de ejecutar SDXL + un editor + Wan por separado?

Accepted Answer

La mayoría de las pilas abiertas escogen el mejor especialista para cada superficie — SDXL o FLUX para generación de imágenes en bruto, Qwen-Image-Edit para ediciones, Wan 2.2 para vídeo, Qwen.5-VL para razonamiento de lenguaje de visión. Lance intercambia un poco de calidad por tarea para coherencia de tareas cruzadas: la misma representación interna alimenta cada salida, por lo que una imagen que genera y luego edita conserva su estilo, y el VQA el modelo da acerca de un vídeo coincide con el modelo de lenguaje en el mismo puesto de control. Útil para investigaciones y demostraciones que se benefician de un modelo consistente en lugar de una tubería de cuatro.

Question 3

¿Cuándo debería elegir a Lance contra los especialistas?

Accepted Answer

Elige Lance cuando: quieres un estilo consistente a través de la imagen + editar + vídeo de un modelo, estás prototipando una tubería de múltiples tareas y el ángulo "un modelo" importa, o necesitas licencias permisivas en el flujo de trabajo unificado. Elige especialistas cuando: quieres una generación de imágenes en bruto de la más alta calidad (FLUX.2 Klein > Lance en > 7682), video más largo / de la más alta calidad (Wan 2.2 TI2V-5B o HunyuanVideo > Lance en > 480p), o VQA más rápido en chat (Qwen.5-VL siempre es cálido en el H200, Lance tiene que cargar en frío).

Question 4

¿Cuánto cuesta cada tarea de Lance?

Accepted Answer

Texto→imagen e imagen-edición: 5.000 tokens (matches FLUX-class image gen). Texto→vídeo: 15.000 tokens (matches CogVideoX / Wan 5B class). Imagen+vídeo VQA: 1.000 tokens. El costo más alto frente a SDXL (1.000) refleja la carga más pesada en frío de Lance: cada llamada desaloja el resto de la flota caliente y vuelve a cargar 40 GB de pesos, lo que añade 25-40 s sobre la propia inferencia.

Question 5

¿Cuánto tiempo toma cada tarea?

Accepted Answer

Después de la carga en frío (~25-40 s): image gen ~12-20 s, image edit ~15-25 s, text→video ~60-180 s (dependiendo de num_frames), VQA ~3-8 s. Cada llamada de Lance carga en frío el modelo porque no puede co-resider con el resto de la flota caliente en el H200, por lo que el retraso de la carga en frío es parte de cada llamada, no sólo la primera.

Question 6

¿Cuál es el tamaño máximo de salida / longitud?

Accepted Answer

La generación de imágenes y la edición de imágenes se fijan en 768×768. La generación de vídeo se fija en 480p (típicamente 480×848 paisaje) y se limita a 121 fotogramas (~5 segundos a 24 fps). Estas son las resoluciones en las que Lance fue entrenado; empujar más alto requiere un aumento de escala a través de un modelo separado (intentar /image/upscaler/ para imágenes o /video/upscaler/ para vídeos).

Question 7

¿Cómo se compara Lance con Janus, Show-o, Emu3 u otros multimodales unificados?

Accepted Answer

Janus (DeepSeek) y Show-o dividen la comprensión y la generación en cabezas separadas en una columna vertebral compartida; Lance está más estrechamente unificada — un conjunto de cabezas generacionales+comprensivas con tokens de tareas explícitos. Emu3 (BAAI) muestra todo como fichas discretas incluyendo píxeles, lo que le da una generación autorregresiva más limpia pero una calidad más baja en computación fija. El tono de Lance es la cobertura de cuatro tareas en parámetros activos 3B más su VAE derivado de Wan que maneja el vídeo de forma nativa (Janus y Show-o son sólo imágenes).

Question 8

¿En qué licencia está Lance? ¿Puedo usarlo comercialmente?

Accepted Answer

Apache 2.0 — tanto los pesos (huggingface.co/bytedance-research/Lance) como el GitHub repo (github.com/bytedance/Lance). Sin restricciones territoriales, sin tapa MAU, sin jinete no comercial, sin cláusula de investigación. Las salidas son suyas para utilizar comercialmente sin requisitos de regalías o atribución más allá del texto estándar de la licencia Apache 2.0.

Question 9

¿Qué VRAM y hardware necesita para ser auto-anfitriona?

Accepted Answer

Los parámetros activos 3B son engañosos — el completo Qwen LLM + Wan VAE + Qwen.5-VL ViT todos se sientan en memoria juntos. Para albergar uno mismo necesitaría un solo A100 80 GB, A6000 48 GB, o un H100/H200 con al menos 40 GB gratis. Lo ejecutamos en nuestro H200 (141 GB total), pero todavía desaloja el resto de los modelos cargados por llamada porque es el más pesado de la caja.

Question 10

¿Hay una API?

Accepted Answer

Sí — POST JSON o multipart to /v1/multimodal/lance/ on api.free.ai con {tarea: "t2i"  "image_edit"  "t2v"  "vqa", prompt: "...", image: <upload> or image_url: "/static/outputs/..."}. Beaser auth via developer API keys. Response include job_id, output URL, and share_token. /api/ ha curl examples per task.

Question 11

¿Por qué "experimental"?

Accepted Answer

Marcamos a Lance experimental porque la latencia de carga fría significa que no es un buen ajuste para el tráfico de alto volumen — cada llamada desaloja la flota caliente y recargas. Podemos añadir un nivel de "Lance caliente" más tarde si el uso justifica dedicar una ranura, o podemos añadir un segundo H200 específicamente para los modelos unificados. Por ahora está disponible en la misma economía simbólica que el resto de los modelos auto-anfitriones de Free.ai sin recargo, sólo el mayor costo de token por llamada refleja el tiempo de GPU de reloj de pared.

Question 12

¿Se almacenan o se utilizan mis avisos y cargas para el entrenamiento?

Accepted Answer

Las imágenes subidas para editar imágenes y VQA se eliminan inmediatamente después de completar la tarea. Las salidas generadas permanecen en nuestra CDN durante 24 horas (7 días para los usuarios pagados) para que pueda volver a descargar desde /account/?tab=historia. Nada se comparte con ByteDance — los pesos se ejecutan localmente en nuestro hardware. Detalles completos en /privacy/.

Detalles del modelo

Acerca de

Uso a través de API

Comparar

Preguntas más frecuentes

Detalles del modelo

Acerca de

Uso a través de API

Comparar

Preguntas más frecuentes

Obtener 10.000 tokens gratis

Espere... ¡Obtenga 10 mil tokens gratis!

¿Quieres más?