Rozmawiająca głowa

Wykorzystanie handlowe OK Modele 380+ Brak znaku wodnego Nie ma potrzeby rejestracji
Wzór:
+ GPT-5, Claude, Gemini
Animate any portrait photo to speak. Drop a face image + an audio file (or paste TTS text), AI generates a video of the face talking with synchronized lip movements. Powered by SadTalker — fast and reliable for professional talking-head explainer videos.

PNG/JPG – portret z przodu, czysta twarz

MP3/WAV – lub pozostawić pusty + użyć TTS poniżej

Jeśli podajesz powyższy dźwięk, tekst ten jest ignorowany. Maksymalnie 1000 znaków.
~6,000 żetonów na klip (wolne); wagi premiowe według długości
Pobierz
Zaawansowane opcje
Wynik
Tokiny się skończyły. Zdobądź więcej tokenów
Chcesz lepsze wyniki? Modele premium (GPT-5, Claude, Gemini) dostarcza wyższej jakości. Widok planów

❤️ Love this tool? Share it!

Zaloguj się aby uzyskać link referencyjny i zarobić 25 000 żetonów na przyjaciela.

Chcesz więcej? Zarejestruj się za darmo za 30K tokeny/dzień + 10K bonus
Zarejestruj się za darmo

Przetwarzam twoją prośbę...

Animuj dowolne zdjęcie portretowe, aby mówić. Darmowy SadTalker (samo hosted) lub premium lipsync — upuść obraz twarzy + audio, odzyskaj z ust syncowane foot-head wideo. Idealny dla tłumaczy, awatarów, głosu na wideo.

Jak stosować lek Rozmawiająca głowa

1
Wprowadź swoje wpisy

Wpisz tekst, wyślij plik lub opisz, czego chcesz. Nie jest potrzebne konto.

2
Kliknij wygenerować

Nasz SI przetwarza Twoją prośbę w sekundach przy użyciu najlepszych modeli open-source.

3
Pobierz & dzielenie

Pobierz, kopiuj lub podziel się swoim wynikiem. Darmowe do użytku osobistego i komercyjnego.

Użyj tego narzędzia przez API

Automatyzuj to narzędzie z własnego kodu. Kompatybilny z OpenAI REST punkt końcowy, Authentic-Bearer-token, nie jest wymagany dodatkowy SDK. Koszty token pasują do interfejsu internetowego.

curl -X POST https://api.free.ai/v1/video/generate/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"prompt": "A cat playing piano", "duration": 4}'

Rozmawiająca głowa — FAQ

Wyślij zdjęcie portretowe + klip audio (lub plik mowy), SI animuje twarz do syncowania lip. Wyjście jest MP4 wideo zdjęcia "mówiąc" audio z realistycznymi ruchami ustnymi, głową i mruganiem. Dwa modele: darmowy SadTalker (samohosted, MIT) lub premium lipsync (sharper usta, szybciej).

Tak — SadTalker biegnie na naszych samorządzonych GPU, bezpłatnie w codziennym tokena base. Każdy klip kosztuje ~6,000 tokena baza + 800 tokena na sekundę audio. Więc 10-sekundowy klip to ~14,000 tokena. Anonimowy dostanie 2500/dobę, podpisany 10 000/dobę. Wagi premium po długości, ale z ostrszym wyjściem.

SadTalker (domyślnie) jest bezpłatny i wytwarza naturalną gadającą głowę z subtelnym ruchem głowy + mruga. Premium lipsync ma ostrsze kształty ust (szczególnie dla plosives i bilabials jak "p", "b", "m") i wytwarza 2-3x szybciej na długim audio. Dla socjal-media wyjaśniaczy i awatarów, SadTalker jest świetny. Dla dubbingu wysokiej wagi i zawartości synchronizacji ust, przełącz na premium.

Portret z przodu, czysta twarz, nawet oświetlenie, wyrażenie neutralne. Obraz powinien wypełnić co najmniej 30% ramki. Unikać ciężkich okularów okularów (złamają śledzenie oczu), zdjęć profilowych (model potrzebuje zarówno oczu widocznych), jak i ekstremalnych wyrażeń. Studia zdjęcia głowy i dobre selfies działają świetnie.

WAV lub MP3 jasnego wypowiedzenia. SadTalker obsługuje 1-30 sekund klipów niezawodnie, dłużej jest obsługiwane, ale wolniej. Dla najlepszego synchroryzowania ust, użyj jednego głośnika, niskiego hałasu tła i wyraźnie ogłoszonego mowy. Najpierw generuj dźwięk za pomocą /tts / jeśli chcesz skryptować głowę mówiącą.

SadTalker zajmuje około 10 sekund czasu GPU na sekundę dźwięku. Więc 10-sekundowa gadająca głowa zajmuje ~100 sekund. Premium lipsync jest szybsza (~3-5 sekund na sekundę dźwięku), ale kosztuje więcej. Obydwa uruchomić na naszych A100s — można zamknąć kartę i wynik lądować w panelu deski.

D-ID płaci $5,99/miesiąc za 5 minut wideo. HeyGen to $24/miesiąc. Synteza to $30/miesiąc. Dajemy Ci SadTalker bezpłatnie w basenie dziennym — porównywalna jakość dla tłumaczy / avatar wideo. Premium lipsync pasuje do jakości D-ID Studio. Bezpłatna opcja jest szczerze dobra dla większości przypadków krótkiego użytkowania TikTok / YouTube.

Tak — wygenerować twarz przez /image/avatar / lub /image/generate /, a następnie nakarmić go tutaj. Model traktuje dowolny portret z przodu w ten sam sposób. Wspólny łańcuch: squit → portret SDXL → SadTalker animuje → /tts / dla głosu → zrobione.

SadTalker animuje region twarzy (usta, oczy, głowa, milganie, mruganie). Ramienie, odzież i tło pozostają prawie statyczne. Dla pełnego ciała gadającego-głowa z ruchem ciała, użyj premium modelu lipsync z szerszą uprawą.

Tak — POST to /v1/video/talking-head/ with multipart `image' + `audio`. Albo użyj /planowanego/ do kolejki wiele runs. /batch/ akceptuje również CSV z URL obrazu + pary audio- URL.

Tak — POST multipart `image' + `audio` to /v1/video/talking-head/ on api.free.ai. Bearrer auth. Zwraca JSON z `video_url' + `share_token'. 10 000 tokenów/miesiąc wolny. Wagi premium liniowo z czasem trwania dźwięku. /api/ ma przykład kwignięcia.

Zdjęcia i dźwięk są usuwane w ciągu 24 godzin od generacji. Filmy wyjściowe siedzą na naszym CDN przez 24 godziny (7 dni dla płatnych użytkowników), tak aby można było ponownie pobrać z /account /?tab=history. Nigdy nie używane do treningu. Polityka prywatności w całości na /privacy /.

Zarejestruj się bezpłatnie na 30 000 żetonów

Utwórz bezpłatne konto

Karta kredytowa nie jest wymagana

Jak mógłbyś ocenić to narzędzie?

Love this tool? Share it!