Говорящая голова

Камерцыйнае выкарыстанне 380+ мадэляў Без вадзянога знака Не патрабуецца рэгістрацыя
Модэль:
+ GPT-5, Claude, Gemini
Animate any portrait photo to speak. Drop a face image + an audio file (or paste TTS text), AI generates a video of the face talking with synchronized lip movements. Powered by SadTalker — fast and reliable for professional talking-head explainer videos.

PNG/JPG — кнігі, празрыстая верхняя частка

MP3/ WAV - або пакіньце пустым + выкарыстоўвайце TTS ніжэй

Калі вы ўвядзіце гукавы файл, гэты тэкст будзе праігнараваны. Максімальна 1000 знакаў.
~ 6000 знакаў за кліп (бясплатна); прэміум- стаўка па даўжыні
Сцягнуць
Адмысловыя параметры
Вынікі
Не хапае значкоў. Атрымаць больш значкоў
Вы хочаце лепшыя вынікі? Модулі Premium (GPT-5, Claude, Gemini) даюць больш высокую якасць. Прагляд планаў

❤️ Любіце Free.ai? Раскажыце сваім сябрам!

Зарэгіструйцеся, каб атрымаць спасылку і атрымаць 25 000 знакаў на сябра.

Хочаце больш? Зарэгіструйцеся бясплатна на 30K знакаў / дзень + 10K бонус
Зарэгіструйцеся

Апрацоўка запыту...

Анімацыя любой партрэтнай фатаграфіі для размоваў. Бясплатны SadTalker (самы сабой) або прэміум lipsync — выкіньце выяву твару + гук, атрымайце відэа з сінхранізаванай вуснай галавой. Ідэальна падыходзіць для тлумачэньняў, аватараў, гукавых запісаў відэа.

Як выкарыстоўваць Говорящая голова

1
Увядзіце ваш увод

Увядзіце тэкст, загрузіце файл або апісайце, што вы хочаце. Не патрабуецца ўліковы запіс.

2
Націсніце, каб стварыць

Нашы машынныя навучанні апрацоўваюць ваш запыт за секунды, выкарыстоўваючы лепшыя мадэлі з адкрытым зыходным кодам.

3
Сцягнуць і падзяліцца

Сцягнуць, скапіраваць або падзяліцца сваімі вынікамі. Бясплатна для асабістага і камерцыйнага выкарыстання.

Выкарыстоўваць гэтую прыладу праз API

Аўтаматызацыя гэтай інструмента з вашага кода. OpenAI- сумяшчальны REST канец, Bearer- токен аўтарызацыі, не патрабуецца дадатковы SDK. Кошт токенаў адпавядае інтэрфейсу вэб.

curl -X POST https://api.free.ai/v1/video/generate/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"prompt": "A cat playing piano", "duration": 4}'

Говорящая голова — FAQ

Загрузіце партрэтную фатаграфію + аўдыё- кліп (або файл гаворкі), ШІ анімуе твар, каб сінхранізаваць аўдыё з губамі. Вывад - відэа ў фармаце MP4 з фота, якое "гаворыць" аўдыё з рэалістычнымі рухамі рота, скачкамі галавы і мігценнямі. Два варыянты: бясплатны SadTalker (самы сабой, MIT) або прэміум lipsync (больш выразны рот, хутчэй).

Так — SadTalker працуе на нашых уласных графічных працэсарах, бясплатна ў штодзённым пункце. Кожны кліп каштуе ~6,000 базавай манеты + 800 манет за секунду гуку. Такім чынам, 10-секундны кліп каштуе ~14,000 манет. Анонімныя карыстальнікі атрымліваюць 2,500/дзень, уваходныя карыстальнікі атрымліваюць 10,000/дзень. Premium таксама павялічваецца па даўжыні, але з больш рэзкім вывадом.

SadTalker (па змаўчанні) бясплатны і стварае натуральную галаву-гаворку з тонкім рухам галавы + мігценні. Premium lipsync мае больш выразныя формы рот (асабліва для плёсіўных і білабальных, як "p", "b", "m") і рэндеруе 2-3x хутчэй на доўгіх аўдыё. Для сацыяльных медыя-апавядальнікаў і аватараў, SadTalker выдатны. Для высока-вернасці дублавання і lip-sync-critical-content, пераключыцеся на premium.

Портрэт з тварам спераду, чыстае, раўнамернае асвятленне, нейтральны выраз. Твары павінны займаць не менш за 30% кадра. Не носіце цяжкія акуляры (якія парушаюць работу сістэмы назірання за вачыма), не рабіце профілявыя здымкі (мадэлі павінны мець бачныя абодва вочы) і не выкарыстоўвайце экстрэмальныя выраз твару. Студыйныя здымкі галавы і добрыя селфі выдатна працуюць.

WAV або MP3 гукавыя файлы. SadTalker дае магчымасць захоўваць 1- 30- секундныя кліпы, але яны будуць павольнейшымі. Для лепшай сінхранізацыі гуку з вуснамі выкарыстоўвайце адзін дынамік, нізкі фонавы шум і чыстае гучанне. Спачатку стварыце гук праз / tts /, калі вы хочаце стварыць сцэнар для гукавой галавы.

SadTalker займае каля 10 секунд часу GPU на секунду гуку. Такім чынам, 10- секундная размова займае ~100 секунд. Premium lipsync хутчэй (~3-5 секунд на секунду гуку), але каштуе больш. Абедзве працуюць на нашых A100s - вы можаце закрыць картку і вынік апынецца на вашым працоўным стале.

D-ID патрабуе $ 5.99 / месяц за 5 хвілін відэа. HeyGen - $ 24 / месяц. Synthesia - $ 30 / месяц. Мы даем вам SadTalker бясплатна ў штодзённым басейне - параўнальнае якасць для відэа з тлумачэннем / аватарам. Premium lipsync адпавядае якасці D-ID Studio. Бесплатны варыянт шчыра добры для большасці TikTok / YouTube кароткіх выпадкаў выкарыстання.

Так — стварыць твар праз / image/ avatar / або / image/ generate /, а затым падаць яго сюды. Модэль трактуе любы партрэт, які глядзіць спераду, такім жа чынам. Агульны ланцужок: prompt → SDXL portrait → SadTalker animates → / tts / для голасу → зроблена.

SadTalker анімуе частку твару (рот, вочы, рух галавы, мігценні). Плечы, адзенне і фон застаюцца амаль статычнымі. Для вуснаў з рухам цела выкарыстоўвайце мадэль lipsync з больш шырокім абрэзкам.

Так — POST у /v1/video/talking-head/ з шматчастковым `image` + `audio`. Або выкарыстоўвайце /scheduled/ для шэрагу выкананняў. /batch/ таксама прымае CSV з парай URL-адрасу малюнка і URL-адрасу гуку.

Так — POST multipart `image` + `audio` to /v1/video/talking-head/ on api.free.ai. Bearer auth. Верне JSON з `video_url` + `share_token`. 10,000 знакаў/месяц бясплатна. Прэміум-план лінейна павялічваецца з працягласцю гуку. /api/ мае прыклад curl.

Фота і аўдыё выдаляюцца праз 24 гадзіны пасля стварэння. Выходныя відэа захоўваюцца ў нашай CDN на працягу 24 гадзін (7 дзён для платных карыстальнікаў), каб вы маглі перазагрузіць з /account/?tab=history. Ніколі не выкарыстоўваецца для трэніровак. Паўночнае кіраванне прыватнасцю ў /privacy/.

Зарэгіструйцеся бясплатна на 30 000 знакаў

Стварыць новы рахунак

Крэдытная карта не патрабуецца

Як вы ацэньваеце гэтую прыладу?

Любіце Free.ai? Раскажыце сваім сябрам!