Question 1

Qu'est-ce que Lance?

Accepted Answer

Lance est le modèle multimodal unifié natif de ByteDance en 2025 — paramètres actifs 3B sous Apache 2.0. Un ensemble de poids couvre quatre tâches : text→image (768×768), image-edit (768×768), text→vidéo (480p, jusqu'à 121 images 5 secondes) et image+vidéo compréhension (VQA, sous-titrage). Construite sur une colonne vertébrale LLM Qwen avec une VAE Wan-Video et une ViT Qwen.5-VL. Auto-installée sur Free.ai's H200 sans fournisseur en amont, sans balisage API et sans frais d'appel au-delà de votre balance de jetons.

Question 2

Pourquoi "unified"? En quoi est-ce différent de l'exécution de SDXL + un éditeur + Wan séparément?

Accepted Answer

La plupart des piles ouvertes choisissent le meilleur spécialiste pour chaque surface — SDXL ou FLUX pour la génération d'images brutes, Qwen-Image-Edit pour les éditions, Wan 2.2 pour la vidéo, Qwen.5-VL pour le raisonnement du langage de vision. Lance trade un peu de qualité par tâche pour la cohérence des tâches croisées: la même représentation interne alimente chaque sortie, de sorte qu'une image que vous générez puis modifie conserve son style, et le modèle VQA donne à propos d'une vidéo correspond au modèle de langue dans le même point de contrôle. Utile pour la recherche et les démos qui bénéficient d'un modèle cohérent plutôt qu'un pipeline de quatre.

Question 3

Quand devrais-je choisir Lance contre les spécialistes?

Accepted Answer

Pick Lance quand: vous voulez un style cohérent à travers l'image + éditer + vidéo à partir d'un modèle, vous prototypez un pipeline multi-tâches et l'angle "un modèle", ou vous avez besoin de licence permissive sur le workflow unifié. Pick spécialistes quand: vous voulez une image brute de haute qualité gen (FLUX.2 Klein > Lance à >7682), la plus longue / vidéo de haute qualité (Wan 2.2 TI2V-5B ou HunyuanVideo > Lance à >480p), ou VQA la plus rapide dans le chat (Qwen.5-VL est toujours chaud sur le H200, Lance doit à froid-load).

Question 4

Combien chaque tâche Lance coûte-t-elle?

Accepted Answer

Text→image et édition d'image: 5 000 jetons (matches FLUX-class image gen). Text→video: 15 000 jetons (matches CogVideoX / Wan 5B class). Image+video VQA: 1 000 jetons. Le coût plus élevé vs SDXL (1 000) reflète la charge froide plus lourde de Lance — chaque appel expulse le reste de la flotte chaude et recharge 40 Go de poids, ce qui ajoute 25-40 s en plus de l'inférence elle-même.

Question 5

Combien de temps faut-il pour chaque tâche?

Accepted Answer

Après chargement à froid (~25-40 s): image gen ~12-20 s, édition d'image ~15-25 s, texte→video ~60-180 s (selon num_frames), VQA ~3-8 s. Chaque lance appelle à froid charge le modèle parce qu'il ne peut pas co-résident avec le reste de la flotte chaude sur le H200, donc le retard de chargement à froid fait partie de chaque appel, pas seulement le premier.

Question 6

Quelle est la taille/longueur maximale de sortie?

Accepted Answer

La génération vidéo est fixée à 480p (habituellement 480×848 paysage) et plafonnée à 121 images (~5 secondes à 24 fps). Ce sont les résolutions que Lance a été formé; pousser plus haut nécessite un upscaling via un modèle séparé (essayer /image/upscaler/ pour les images ou /video/upscaler/ pour les vidéos).

Question 7

Comment Lance se compare-t-il à Janus, Show-o, Emu3 ou à d'autres multimodals unifiés?

Accepted Answer

Janus (DeepSeek) et Show-o scindent la compréhension et la génération en têtes séparées sur une colonne vertébrale partagée; Lance est plus étroitement unifiée — un ensemble de têtes de génération+comprendre avec des jetons de tâche explicites. Emu3 (BAAI) tokenizes everything as discret tokens including pixels, qui lui donne une génération autorégressive plus propre mais de qualité inférieure à calcul fixe. Le pas de Lance est la couverture à quatre tâches dans les params actifs 3B plus son VAE dérivé de Wan qui gère la vidéo nativement (Janus et Show-o sont uniquement image).

Question 8

Quelle est la licence de Lance? Puis-je l'utiliser commercialement?

Accepted Answer

Apache 2.0 — à la fois les poids (huggingface.co/bytedance-research/Lance) et la repo GitHub (github.com/bytedance/Lance). Pas de restrictions territoriales, pas de plafond MAU, pas de motard non commercial, pas de clause de recherche seulement. Les sorties sont à vous d'utiliser commercialement sans redevances ni exigences d'attribution au-delà du texte de licence Apache 2.0 standard.

Question 9

De quel VRAM et matériel a-t-il besoin pour s'auto-héberger?

Accepted Answer

Les params actifs 3B sont trompeurs — les Qwen LLM + Wan VAE + Qwen.5-VL ViT sont tous assis en mémoire. Pour vous auto-héberger, vous aurez besoin d'un seul A100 80 GB, A6000 48 GB ou d'un H100/H200 avec au moins 40 GB libre.

Question 10

Y a-t-il une API?

Accepted Answer

Oui — POST JSON ou multipart à /v1/multimodal/lance/ sur api.free.ai avec {task: "t2i", "image_edit", "t2v", "vqa", invite: "...", image: <upload> ou image_url: "/static/outputs/..."}. Porter auth via les touches API développeur. La réponse inclut job_id, output URL et share_token. /api/ a des exemples de boucles par tâche.

Question 11

Pourquoi "expérimental"? Est-ce que ça restera libre?

Accepted Answer

Nous marquons Lance expérimentale parce que la latence à froid signifie que ce n'est pas un bon ajustement pour le trafic à volume élevé — chaque appel expulse la flotte chaude et recharge. Nous pouvons ajouter un niveau "chaud Lance" plus tard si l'utilisation justifie de dédier une fente, ou nous pouvons ajouter un second H200 spécifiquement pour les modèles unifiés. Pour l'instant, il est disponible sur la même économie que le reste des modèles auto-portés Free.ai sans supplément, juste le coût de jeton par appel plus élevé reflétant le temps GPU de l'horloge murale.

Question 12

Mes instructions et téléchargements sont-ils stockés ou utilisés pour l'entraînement?

Accepted Answer

Les images téléchargées pour l'édition d'images et VQA sont supprimées immédiatement après la fin de la tâche. Les sorties générées s'assoient sur notre CDN pendant 24 heures (7 jours pour les utilisateurs payants) afin que vous puissiez re-télécharger à partir de /account/?tab=history. Rien n'est partagé avec ByteDance — les poids s'exécutent localement sur notre matériel.

Détails du modèle

À propos

Utiliser via l'API

Comparer

FAQ

Détails du modèle

À propos

Utiliser via l'API

Comparer

FAQ

Obtenez 10 000 jetons gratuits

Attendez — Obtenez 10 000 jetons gratuits!

Tu en veux plus?