Tête parlante de l'IA

Utilisation commerciale OK 380+ modèles Pas de filigrane Pas besoin d'inscription
Modèle:
+ GPT-5, Claude, Gemini
Animate any portrait photo to speak. Drop a face image + an audio file (or paste TTS text), AI generates a video of the face talking with synchronized lip movements. Powered by SadTalker — fast and reliable for professional talking-head explainer videos.

PNG/JPG — portrait orienté vers l'avant, visage clair

MP3/WAV — ou laisser vide + utiliser TTS ci-dessous

Si vous fournissez l'audio ci-dessus, ce texte est ignoré. Max 1000 caractères.
~6 000 jetons par clip (libre); balances premium par longueur
Télécharger
Options avancées
Résultat
Les jetons sont bas. Obtenez plus de jetons
Vous voulez de meilleurs résultats? Modèles premium (GPT-5, Claude, Gemini) offrent une qualité supérieure. Afficher les plans

❤️ Love this tool? Share it!

Inscrivez-vous pour obtenir un lien de référence et gagner 25 000 jetons par ami.

Tu en veux plus? Inscrivez-vous gratuitement pour 30K jetons/jour + 10K bonus
Inscription gratuite

Traitement de votre demande...

Animez n'importe quelle photo de portrait pour parler. Gratuit SadTalker (auto-hôte) ou lipsync premium — déposez une image du visage + audio, obtenez une vidéo de tête-à-tête de discussion synchronisée sur lèvre. Idéal pour les explications, les avatars, voix-over à la vidéo.

Comment utiliser Tête parlante de l'IA

1
Saisissez votre entrée

Tapez du texte, téléchargez un fichier ou décrivez ce que vous voulez. Aucun compte n'est nécessaire.

2
Cliquez sur générer

Notre IA traite votre demande en quelques secondes à l'aide des meilleurs modèles open-source.

3
Télécharger et partager

Téléchargez, copiez ou partagez votre résultat. Gratuit pour un usage personnel et commercial.

Utilisez cet outil via l'API

Automatisez cet outil à partir de votre propre code. Endpoint REST compatible OpenAI, Auth-token auth, pas de SDK supplémentaire requis.

curl -X POST https://api.free.ai/v1/video/generate/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"prompt": "A cat playing piano", "duration": 4}'

Tête parlante de l'IA — FAQ

Télécharger une photo de portrait + un clip audio (ou un fichier vocal), l'IA anime le visage à lip-sync l'audio. Sortie est une vidéo MP4 de la photo "parlant" l'audio avec des mouvements de bouche réalistes, l'emprise de la tête, et des clignements. Deux modèles: libre SadTalker (auto-hôte, MIT) ou premium lipsync ( bouche de taille, plus rapide).

Oui — SadTalker fonctionne sur nos GPUs auto-organisés, gratuit dans la piscine quotidienne de jetons. Chaque clip coûte ~6 000 jetons base + 800 jetons par seconde d'audio. Donc un clip de 10 secondes est ~14 000 jetons. Anonyme obtenir 2.500 par jour, signé-in obtenir 10 000 par jour.

SadTalker (par défaut) est libre et produit une tête de conversation naturelle avec un mouvement subtil de la tête + clignotements. Premium lipsync a des formes de bouche plus nettes (surtout pour les plosifs et les bilabiaux comme "p", "b", "m") et rend 2-3x plus rapide sur le son long. Pour les explications de médias sociaux et les avatars, SadTalker est génial.

Portrait face à l'avant, visage clair, même éclairage, expression neutre. Le visage doit remplir au moins 30% du cadre. Évitez les lunettes de soleil lourdes (ils brisent le suivi des yeux), les clichés de profil (le modèle a besoin à la fois des yeux visibles) et les expressions extrêmes.

WAV ou MP3 de la parole claire. SadTalker gère de 1 à 30 secondes clips de manière fiable, plus long est supporté mais plus lent. Pour le meilleur lip-sync, utilisez un seul haut-parleur, un bruit de fond faible et une parole clairement énoncée. Générez l'audio d'abord via /tts/ si vous voulez scripter la tête parlante.

SadTalker prend environ 10 secondes de temps GPU par seconde d'audio. Donc une tête parlante de 10 secondes prend ~100 secondes. Premium lipsync est plus rapide (~3-5 secondes par seconde d'audio) mais coûte plus cher. Tous les deux fonctionnent sur nos A100s — vous pouvez fermer l'onglet et le résultat atterrit dans votre tableau de bord.

HeyGen est de 24 $/mois. Synthesia est de 30 $/mois. Nous vous donnons SadTalker gratuit dans la piscine quotidienne — qualité comparable pour les vidéos d'explication / avatar. Premium lipsync correspond à la qualité D-ID Studio. L'option gratuite est honnêtement assez bonne pour la plupart des cas TikTok / YouTube court usage.

Oui — générer un visage via /image/avatar/ ou /image/generate/, puis le nourrir ici. Le modèle traite n'importe quel portrait face à l'avant de la même manière. Chaîne commune: prompt → SDXL portrait → SadTalker anime → /tts/ pour la voix → fait.

SadTalker anime la région du visage (bouche, yeux, inclinaison de la tête, clignotements). Les épaules, les vêtements et le fond restent presque statiques.

Oui — POST to /v1/video/talking-head/ with multipart `image` + `audio`. Ou utilisez /programmé/ to file d'attente de nombreux runs. /batch/ accepte également CSV des paires image-URL + audio-URL.

Oui — POST multipart `image` + `audio` à /v1/video/talking-head/ sur api.free.ai. Bearer auth. Retourne JSON avec `video_url` + `share_token`. 10.000 jetons/mois gratuits. Balances Premium linéaires avec durée audio. /api/ a l'exemple de boucle.

Les photos et l'audio sont supprimés dans les 24 heures de la génération. Les vidéos de sortie s'assoient sur notre CDN pendant 24 heures (7 jours pour les utilisateurs payants) afin que vous puissiez télécharger à nouveau de /account/?tab=history. Jamais utilisé pour la formation.

Inscrivez-vous gratuitement pour 30 000 jetons

Créer un compte gratuit

Aucune carte de crédit requise

Comment évalueriez-vous cet outil?

Love this tool? Share it!