Testa parlante

Usu commerciale OK 380+ mudelli Nessuna filigrana Nudda iscrizioni necessaria
Modellu:
+ GPT-5, Claude, Gemini
Animate any portrait photo to speak. Drop a face image + an audio file (or paste TTS text), AI generates a video of the face talking with synchronized lip movements. Powered by SadTalker — fast and reliable for professional talking-head explainer videos.

PNG/JPG — ritrattu drittu, faccia trasparente

MP3/WAV — o lascià vutu + usari TTS sutta

Si furnisci l'audiu supra, stu testu sarà ignoratu. Massimu 1000 caratteri.
~ 6.000 gettoni per clip (gratu); premium scala per lunghezza
Scarica
Opzioni avanzate
Risurtatu
Tokens scarsi. Più token
Volete risultati megghiu? Modelli Premium (GPT-5, Claude, Gemini) offrenu una qualità cchiù àuta. Visualizza i piani

❤️ Amuri Free.ai? Dì i vostri amichi!

Iscriviti per ottene un ligame di rifirimentu è guadagnà 25.000 gettoni per amicu.

Volete di più? Iscriviti gratuitamente per 30K tokens/day + 10K bonus
Iscriviti

Elaborazione di a vostra richiesta...

Animate ogni foto ritrattu per parlà. SadTalker (auto-ospitatu) o lipsync premium — lasciate una immagine di faccia + audio, ottenete un video di testa parlante sincronizatu cù i labbri. Ideale per spiegatori, avatar, voce-over à u video.

Comu usari Testa parlante

1
Inserisci u vostru input

Scrivi un testu, carica un figghiu o discrivi chiddu ca vogghiu. Nudda cuntu necessariu.

2
Clicca pi generari

A nostra IA processa a vostra dumanda in uni pochi di seconde usannu i migliori mudelli open-source.

3
Scarica e cunnividi

Scarica, copia o sparte u vostru risultatu. Libru per usu persunale è cummerciale.

Usa stu strumentu via API

Automate stu strumentu da u vostru propiu codice. OpenAI-compatible REST endpoint, Bearer-token auth, no extra SDK richiestu. Token costi currisponde à l'interfaccia web.

curl -X POST https://api.free.ai/v1/video/generate/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"prompt": "A cat playing piano", "duration": 4}'

Testa parlante — FAQ

Carica una foto ritrattu + un clip audio (o un file di parlatu), l'IA anima u visu pi sincronizza l'audiu. L'esciuta è un video MP4 di la foto ca "parla" l'audiu cu movimenti riali di la bocca, u battimentu di la testa, e li sbattimenti di l'ochji. Dui mudelli: SadTalker libberu (auto-ospitatu, MIT) o lipsync premium (bocca cchiù nitti, cchiù veloci).

Sì — SadTalker gira nant’à i nostri GPU auto-ospitati, gratuiti in u pool di tokens di ogni ghjornu. Ogni clip costa ~6,000 tokens base + 800 tokens per siconnu di audio. Dunque un clip di 10 secondi costa ~14,000 tokens. L’anonimu piglia 2,500/giornali, l’autentificatu piglia 10,000/giornali. Premium scala ancu per lunghezza ma cù una uscita più nitta.

SadTalker (predefinitu) è libbru e pruduci una testa parlanti naturale cu un muvimentu di testa sutili + battiti di ciglia. Lipsync Premium hà formi di bocca cchiù nitti (particularmenti pi plosives e bilabials comu "p", "b", "m") e rende 2-3x cchiù veloci pi audio longhi. Per spiegazioni di social-media e avatar, SadTalker è eccellenti. Pi dubbjatura ad alta fidilità e cuntinutu criticu di lip-sync, passate a premium.

Ritrattu rivoltu versu a faccia, faccia chiara, illuminazione uniformi, espressioni neutra. A faccia duveria riempie almenu u 30% di a cornice. Evita l'occhiali di sole pesanti (ruppinu u tracking di l'ochji), ritratti di profilu (u mudellu hà bisognu di tutti dui l'ochji visibbili) è espressioni estremi. Ritratti di testa in studio è boni selfie funzionanu beddi.

WAV o MP3 di parlatu chiaru. SadTalker gestisci 1-30 sicunni di clip in manera affidabbili, si supportanu puru quelli cchiù longhi ma cchiù lenti. Pi la megghiu sincronizzazzioni labiali, usate un singulu altoparlante, pocu rumori di fondu, e parlatu chiaru. Generate prima l'audiu via /tts/ si vulete scrive u script di a testa parlanti.

SadTalker impiega circa 10 secondi di tempu GPU à u siconnu di l’audiu. Dunque, una testa parlante di 10 secondi impiega ~100 secondi. A sincronizazione labiale Premium hè più veloce (~3-5 secondi à u siconnu di l’audiu) ma costa di più. Entrambi sò in esecuzione in i nostri A100 — pudete chiudere a scheda è u risultatu si trova in u vostru dashboard.

D-ID carica $ 5.99 / mese per 5 minuti di video. HeyGen hè $ 24 / mese. Synthesia hè $ 30 / mese. Vi damu SadTalker gratuitamente in u pool quotidianu - qualità paragonabile per i video spiegatori / avatar. Premium lipsync corrisponde à a qualità D-ID Studio. L'opzione gratuita hè onestamente abbastanza bona per a maiò parte di i casi di usu curtu TikTok / YouTube.

Sì — genera una faccia via /image/avatar/ o /image/generate/, poi invialla quì. U mudellu tratta ogni ritrattu rivoltu versu a faccia di a persona in a stissa manera. Catena cumuni: prompt → SDXL portrait → SadTalker animates → /tts/ per a voce → finitu.

SadTalker anima a riggiuni dû pettu (bocca, occhi, testa ca si sbatte, sbattelli di l'ochji). Li spalle, l'abbigliamentu e lu sfondo ristanu quasi statichi. Pi fari capiri a testa ca parla a tuttu u corpu cu lu muvimentu dû corpu, usa lu mudellu lipsync premium cu un ritagliu cchiù largu.

Sì — POST a /v1/video/talking-head/ cu multipart `image` + `audio`. Oppuri usa /scheduled/ pi metti in coda tanti execuzioni. /batch/ accitta puru CSV di coppii image-URL + audio-URL.

Sì — POST multipart `image` + `audio` to /v1/video/talking-head/ on api.free.ai. Bearer auth. Returns JSON with `video_url` + `share_token`. 10,000 tokens/month free. Premium scales linearly with audio duration. /api/ has the curl example.

Foto è audio sò eliminati in 24 ore di generazione. Video di uscita si sittanu in u nostru CDN per 24 ore (7 ghjorni per l'utenti pagati) cusì pudete ri-scaricare da /account/?tab=history. Mai usatu per a formazione. Politica di privacy in piena à /privacy/.

Iscriviti gratuitamenti pi 30.000 tokens

Crea un contu

Nessuna carta di creditu richiesta

Comu valutate stu strumentu?

Amuri Free.ai? Dì i vostri amichi!