Detalles del modelo
Acerca de
Lance 3B (unified) es a Modelo de IA construido por ByteDance. Más fuerte en Cross-task research, prototyping pipelines that need image + video + edit + VQA from one model, "one model, four tasks" demos. Apache 2.0, commercial use OK.. Auto-alojado en Free.ai GPUs — funciona gratis contra su piscina diaria de tokens (100 tokens por uso). Liberado bajo Apache 2.0 — uso comercial permitido el Free.ai.
Uso a través de API
curl https://api.free.ai/v1/chat/ \
-H "Authorization: Bearer YOUR_KEY" \
-d '{"model":"lance-3b"}'
Preguntas más frecuentes
Lance es el modelo multimodal unificado nativo de 2025 de ByteDance — parámetros activos 3B bajo Apache 2.0. Un conjunto de pesos cubre cuatro tareas: text→image (768×768), image-edit (768×768), text→video (480p, hasta 121 fotogramas 5 segundos), y image+video comprension (VQA, subtitulado). Construido sobre un Qwen-derivado de LLM columna vertebral con un Wan-Video VAE y un Qwen.5-VL ViT. Auto-hosted on Free.ai's H200 with no upstream provider, no API markup, and no per-callue fees allen de su balance simbólico.
La mayoría de las pilas abiertas escogen el mejor especialista para cada superficie — SDXL o FLUX para generación de imágenes en bruto, Qwen-Image-Edit para ediciones, Wan 2.2 para vídeo, Qwen.5-VL para razonamiento de lenguaje de visión. Lance intercambia un poco de calidad por tarea para coherencia de tareas cruzadas: la misma representación interna alimenta cada salida, por lo que una imagen que genera y luego edita conserva su estilo, y el VQA el modelo da acerca de un vídeo coincide con el modelo de lenguaje en el mismo puesto de control. Útil para investigaciones y demostraciones que se benefician de un modelo consistente en lugar de una tubería de cuatro.
Elige Lance cuando: quieres un estilo consistente a través de la imagen + editar + vídeo de un modelo, estás prototipando una tubería de múltiples tareas y el ángulo "un modelo" importa, o necesitas licencias permisivas en el flujo de trabajo unificado. Elige especialistas cuando: quieres una generación de imágenes en bruto de la más alta calidad (FLUX.2 Klein > Lance en > 7682), video más largo / de la más alta calidad (Wan 2.2 TI2V-5B o HunyuanVideo > Lance en > 480p), o VQA más rápido en chat (Qwen.5-VL siempre es cálido en el H200, Lance tiene que cargar en frío).
Texto→imagen e imagen-edición: 5.000 tokens (matches FLUX-class image gen). Texto→vídeo: 15.000 tokens (matches CogVideoX / Wan 5B class). Imagen+vídeo VQA: 1.000 tokens. El costo más alto frente a SDXL (1.000) refleja la carga más pesada en frío de Lance: cada llamada desaloja el resto de la flota caliente y vuelve a cargar 40 GB de pesos, lo que añade 25-40 s sobre la propia inferencia.
Después de la carga en frío (~25-40 s): image gen ~12-20 s, image edit ~15-25 s, text→video ~60-180 s (dependiendo de num_frames), VQA ~3-8 s. Cada llamada de Lance carga en frío el modelo porque no puede co-resider con el resto de la flota caliente en el H200, por lo que el retraso de la carga en frío es parte de cada llamada, no sólo la primera.
La generación de imágenes y la edición de imágenes se fijan en 768×768. La generación de vídeo se fija en 480p (típicamente 480×848 paisaje) y se limita a 121 fotogramas (~5 segundos a 24 fps). Estas son las resoluciones en las que Lance fue entrenado; empujar más alto requiere un aumento de escala a través de un modelo separado (intentar /image/upscaler/ para imágenes o /video/upscaler/ para vídeos).
Janus (DeepSeek) y Show-o dividen la comprensión y la generación en cabezas separadas en una columna vertebral compartida; Lance está más estrechamente unificada — un conjunto de cabezas generacionales+comprensivas con tokens de tareas explícitos. Emu3 (BAAI) muestra todo como fichas discretas incluyendo píxeles, lo que le da una generación autorregresiva más limpia pero una calidad más baja en computación fija. El tono de Lance es la cobertura de cuatro tareas en parámetros activos 3B más su VAE derivado de Wan que maneja el vídeo de forma nativa (Janus y Show-o son sólo imágenes).
Apache 2.0 — tanto los pesos (huggingface.co/bytedance-research/Lance) como el GitHub repo (github.com/bytedance/Lance). Sin restricciones territoriales, sin tapa MAU, sin jinete no comercial, sin cláusula de investigación. Las salidas son suyas para utilizar comercialmente sin requisitos de regalías o atribución más allá del texto estándar de la licencia Apache 2.0.
Los parámetros activos 3B son engañosos — el completo Qwen LLM + Wan VAE + Qwen.5-VL ViT todos se sientan en memoria juntos. Para albergar uno mismo necesitaría un solo A100 80 GB, A6000 48 GB, o un H100/H200 con al menos 40 GB gratis. Lo ejecutamos en nuestro H200 (141 GB total), pero todavía desaloja el resto de los modelos cargados por llamada porque es el más pesado de la caja.
Sí — POST JSON o multipart to /v1/multimodal/lance/ on api.free.ai con {tarea: "t2i" "image_edit" "t2v" "vqa", prompt: "...", image: <upload> or image_url: "/static/outputs/..."}. Beaser auth via developer API keys. Response include job_id, output URL, and share_token. /api/ ha curl examples per task.
Marcamos a Lance experimental porque la latencia de carga fría significa que no es un buen ajuste para el tráfico de alto volumen — cada llamada desaloja la flota caliente y recargas. Podemos añadir un nivel de "Lance caliente" más tarde si el uso justifica dedicar una ranura, o podemos añadir un segundo H200 específicamente para los modelos unificados. Por ahora está disponible en la misma economía simbólica que el resto de los modelos auto-anfitriones de Free.ai sin recargo, sólo el mayor costo de token por llamada refleja el tiempo de GPU de reloj de pared.
Las imágenes subidas para editar imágenes y VQA se eliminan inmediatamente después de completar la tarea. Las salidas generadas permanecen en nuestra CDN durante 24 horas (7 días para los usuarios pagados) para que pueda volver a descargar desde /account/?tab=historia. Nada se comparte con ByteDance — los pesos se ejecutan localmente en nuestro hardware. Detalles completos en /privacy/.