Détails du modèle
À propos
Lance 3B (unified) est a Modèle AI construit par ByteDance. Plus fort à {meilleur_pour}. Self-hosted sur Free.ai GPUs — fonctionne gratuitement contre votre pool de jetons journaliers (100 jetons par utilisation). Libéré sous Apache 2.0 — utilisation commerciale autorisée sur Free.ai.
Utiliser via l'API
curl https://api.free.ai/v1/chat/ \
-H "Authorization: Bearer YOUR_KEY" \
-d '{"model":"lance-3b"}'
Comparer
FAQ
Lance est le modèle multimodal unifié natif de ByteDance en 2025 — paramètres actifs 3B sous Apache 2.0. Un ensemble de poids couvre quatre tâches : text→image (768×768), image-edit (768×768), text→vidéo (480p, jusqu'à 121 images 5 secondes) et image+vidéo compréhension (VQA, sous-titrage). Construite sur une colonne vertébrale LLM Qwen avec une VAE Wan-Video et une ViT Qwen.5-VL. Auto-installée sur Free.ai's H200 sans fournisseur en amont, sans balisage API et sans frais d'appel au-delà de votre balance de jetons.
La plupart des piles ouvertes choisissent le meilleur spécialiste pour chaque surface — SDXL ou FLUX pour la génération d'images brutes, Qwen-Image-Edit pour les éditions, Wan 2.2 pour la vidéo, Qwen.5-VL pour le raisonnement du langage de vision. Lance trade un peu de qualité par tâche pour la cohérence des tâches croisées: la même représentation interne alimente chaque sortie, de sorte qu'une image que vous générez puis modifie conserve son style, et le modèle VQA donne à propos d'une vidéo correspond au modèle de langue dans le même point de contrôle. Utile pour la recherche et les démos qui bénéficient d'un modèle cohérent plutôt qu'un pipeline de quatre.
Pick Lance quand: vous voulez un style cohérent à travers l'image + éditer + vidéo à partir d'un modèle, vous prototypez un pipeline multi-tâches et l'angle "un modèle", ou vous avez besoin de licence permissive sur le workflow unifié. Pick spécialistes quand: vous voulez une image brute de haute qualité gen (FLUX.2 Klein > Lance à >7682), la plus longue / vidéo de haute qualité (Wan 2.2 TI2V-5B ou HunyuanVideo > Lance à >480p), ou VQA la plus rapide dans le chat (Qwen.5-VL est toujours chaud sur le H200, Lance doit à froid-load).
Text→image et édition d'image: 5 000 jetons (matches FLUX-class image gen). Text→video: 15 000 jetons (matches CogVideoX / Wan 5B class). Image+video VQA: 1 000 jetons. Le coût plus élevé vs SDXL (1 000) reflète la charge froide plus lourde de Lance — chaque appel expulse le reste de la flotte chaude et recharge 40 Go de poids, ce qui ajoute 25-40 s en plus de l'inférence elle-même.
Après chargement à froid (~25-40 s): image gen ~12-20 s, édition d'image ~15-25 s, texte→video ~60-180 s (selon num_frames), VQA ~3-8 s. Chaque lance appelle à froid charge le modèle parce qu'il ne peut pas co-résident avec le reste de la flotte chaude sur le H200, donc le retard de chargement à froid fait partie de chaque appel, pas seulement le premier.
La génération vidéo est fixée à 480p (habituellement 480×848 paysage) et plafonnée à 121 images (~5 secondes à 24 fps). Ce sont les résolutions que Lance a été formé; pousser plus haut nécessite un upscaling via un modèle séparé (essayer /image/upscaler/ pour les images ou /video/upscaler/ pour les vidéos).
Janus (DeepSeek) et Show-o scindent la compréhension et la génération en têtes séparées sur une colonne vertébrale partagée; Lance est plus étroitement unifiée — un ensemble de têtes de génération+comprendre avec des jetons de tâche explicites. Emu3 (BAAI) tokenizes everything as discret tokens including pixels, qui lui donne une génération autorégressive plus propre mais de qualité inférieure à calcul fixe. Le pas de Lance est la couverture à quatre tâches dans les params actifs 3B plus son VAE dérivé de Wan qui gère la vidéo nativement (Janus et Show-o sont uniquement image).
Apache 2.0 — à la fois les poids (huggingface.co/bytedance-research/Lance) et la repo GitHub (github.com/bytedance/Lance). Pas de restrictions territoriales, pas de plafond MAU, pas de motard non commercial, pas de clause de recherche seulement. Les sorties sont à vous d'utiliser commercialement sans redevances ni exigences d'attribution au-delà du texte de licence Apache 2.0 standard.
Les params actifs 3B sont trompeurs — les Qwen LLM + Wan VAE + Qwen.5-VL ViT sont tous assis en mémoire. Pour vous auto-héberger, vous aurez besoin d'un seul A100 80 GB, A6000 48 GB ou d'un H100/H200 avec au moins 40 GB libre.
Oui — POST JSON ou multipart à /v1/multimodal/lance/ sur api.free.ai avec {task: "t2i", "image_edit", "t2v", "vqa", invite: "...", image: <upload> ou image_url: "/static/outputs/..."}. Porter auth via les touches API développeur. La réponse inclut job_id, output URL et share_token. /api/ a des exemples de boucles par tâche.
Nous marquons Lance expérimentale parce que la latence à froid signifie que ce n'est pas un bon ajustement pour le trafic à volume élevé — chaque appel expulse la flotte chaude et recharge. Nous pouvons ajouter un niveau "chaud Lance" plus tard si l'utilisation justifie de dédier une fente, ou nous pouvons ajouter un second H200 spécifiquement pour les modèles unifiés. Pour l'instant, il est disponible sur la même économie que le reste des modèles auto-portés Free.ai sans supplément, juste le coût de jeton par appel plus élevé reflétant le temps GPU de l'horloge murale.
Les images téléchargées pour l'édition d'images et VQA sont supprimées immédiatement après la fin de la tâche. Les sorties générées s'assoient sur notre CDN pendant 24 heures (7 jours pour les utilisateurs payants) afin que vous puissiez re-télécharger à partir de /account/?tab=history. Rien n'est partagé avec ByteDance — les poids s'exécutent localement sur notre matériel.