Generator wideo SI Edytor wideo SI Zwiększanie wideo SI SI Video Dubbing Studio Uchwyt efektywności SI (Akt 2 Runway) Przekładnik wideo SI Skutki wideo SI – w stylu Pikafefeffects SI Video Upscaler Więcej →

Rozmawiająca głowa

Wykorzystanie handlowe OK Modele 380+ Brak znaku wodnego Nie ma potrzeby rejestracji

Animate any portrait photo to speak. Drop a face image + an audio file (or paste TTS text), AI generates a video of the face talking with synchronized lip movements. Powered by SadTalker — fast and reliable for professional talking-head explainer videos.

Obraz twarzy

PNG/JPG – portret z przodu, czysta twarz

Audio (nieobowiązkowe)

MP3/WAV – lub pozostawić pusty + użyć TTS poniżej

Albo wpisz skrypt (używa Kokoro TTS)

Jeśli podajesz powyższy dźwięk, tekst ten jest ignorowany. Maksymalnie 1000 znaków.

Model

~6,000 żetonów na klip (wolne); wagi premiowe według długości

Animuj dowolne zdjęcie portretowe, aby mówić. Darmowy SadTalker (samo hosted) lub premium lipsync — upuść obraz twarzy + audio, odzyskaj z ust syncowane foot-head wideo. Idealny dla tłumaczy, awatarów, głosu na wideo.

Jak stosować lek Rozmawiająca głowa

Wprowadź swoje wpisy

Wpisz tekst, wyślij plik lub opisz, czego chcesz. Nie jest potrzebne konto.

Kliknij wygenerować

Nasz SI przetwarza Twoją prośbę w sekundach przy użyciu najlepszych modeli open-source.

Pobierz & dzielenie

Pobierz, kopiuj lub podziel się swoim wynikiem. Darmowe do użytku osobistego i komercyjnego.

Użyj tego narzędzia przez API

Automatyzuj to narzędzie z własnego kodu. Kompatybilny z OpenAI REST punkt końcowy, Authentic-Bearer-token, nie jest wymagany dodatkowy SDK. Koszty token pasują do interfejsu internetowego.

Dokumentacja API Pobierz klucz API

curl -X POST https://api.free.ai/v1/video/generate/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"prompt": "A cat playing piano", "duration": 4}'

Powiązane narzędzia bezpłatnego SI

Generator wideo SI

Edytor wideo SI

Zwiększanie wideo SI

SI Video Dubbing Studio

Uchwyt efektywności SI (Akt 2 Runway)

Przekładnik wideo SI

Skutki wideo SI – w stylu Pikafefeffects

SI Video Upscaler

Rozmawiająca głowa — FAQ

Wyślij zdjęcie portretowe + klip audio (lub plik mowy), SI animuje twarz do syncowania lip. Wyjście jest MP4 wideo zdjęcia "mówiąc" audio z realistycznymi ruchami ustnymi, głową i mruganiem. Dwa modele: darmowy SadTalker (samohosted, MIT) lub premium lipsync (sharper usta, szybciej).

Tak — SadTalker biegnie na naszych samorządzonych GPU, bezpłatnie w codziennym tokena base. Każdy klip kosztuje ~6,000 tokena baza + 800 tokena na sekundę audio. Więc 10-sekundowy klip to ~14,000 tokena. Anonimowy dostanie 2500/dobę, podpisany 10 000/dobę. Wagi premium po długości, ale z ostrszym wyjściem.

SadTalker (domyślnie) jest bezpłatny i wytwarza naturalną gadającą głowę z subtelnym ruchem głowy + mruga. Premium lipsync ma ostrsze kształty ust (szczególnie dla plosives i bilabials jak "p", "b", "m") i wytwarza 2-3x szybciej na długim audio. Dla socjal-media wyjaśniaczy i awatarów, SadTalker jest świetny. Dla dubbingu wysokiej wagi i zawartości synchronizacji ust, przełącz na premium.

Portret z przodu, czysta twarz, nawet oświetlenie, wyrażenie neutralne. Obraz powinien wypełnić co najmniej 30% ramki. Unikać ciężkich okularów okularów (złamają śledzenie oczu), zdjęć profilowych (model potrzebuje zarówno oczu widocznych), jak i ekstremalnych wyrażeń. Studia zdjęcia głowy i dobre selfies działają świetnie.

WAV lub MP3 jasnego wypowiedzenia. SadTalker obsługuje 1-30 sekund klipów niezawodnie, dłużej jest obsługiwane, ale wolniej. Dla najlepszego synchroryzowania ust, użyj jednego głośnika, niskiego hałasu tła i wyraźnie ogłoszonego mowy. Najpierw generuj dźwięk za pomocą /tts / jeśli chcesz skryptować głowę mówiącą.

SadTalker zajmuje około 10 sekund czasu GPU na sekundę dźwięku. Więc 10-sekundowa gadająca głowa zajmuje ~100 sekund. Premium lipsync jest szybsza (~3-5 sekund na sekundę dźwięku), ale kosztuje więcej. Obydwa uruchomić na naszych A100s — można zamknąć kartę i wynik lądować w panelu deski.

D-ID płaci $5,99/miesiąc za 5 minut wideo. HeyGen to $24/miesiąc. Synteza to $30/miesiąc. Dajemy Ci SadTalker bezpłatnie w basenie dziennym — porównywalna jakość dla tłumaczy / avatar wideo. Premium lipsync pasuje do jakości D-ID Studio. Bezpłatna opcja jest szczerze dobra dla większości przypadków krótkiego użytkowania TikTok / YouTube.

Tak — wygenerować twarz przez /image/avatar / lub /image/generate /, a następnie nakarmić go tutaj. Model traktuje dowolny portret z przodu w ten sam sposób. Wspólny łańcuch: squit → portret SDXL → SadTalker animuje → /tts / dla głosu → zrobione.

SadTalker animuje region twarzy (usta, oczy, głowa, milganie, mruganie). Ramienie, odzież i tło pozostają prawie statyczne. Dla pełnego ciała gadającego-głowa z ruchem ciała, użyj premium modelu lipsync z szerszą uprawą.

Tak — POST to /v1/video/talking-head/ with multipart `image' + `audio`. Albo użyj /planowanego/ do kolejki wiele runs. /batch/ akceptuje również CSV z URL obrazu + pary audio- URL.

Tak — POST multipart `image' + `audio` to /v1/video/talking-head/ on api.free.ai. Bearrer auth. Zwraca JSON z `video_url' + `share_token'. 10 000 tokenów/miesiąc wolny. Wagi premium liniowo z czasem trwania dźwięku. /api/ ma przykład kwignięcia.

Zdjęcia i dźwięk są usuwane w ciągu 24 godzin od generacji. Filmy wyjściowe siedzą na naszym CDN przez 24 godziny (7 dni dla płatnych użytkowników), tak aby można było ponownie pobrać z /account /?tab=history. Nigdy nie używane do treningu. Polityka prywatności w całości na /privacy /.

Zarejestruj się bezpłatnie na 30 000 żetonów

Utwórz bezpłatne konto

Karta kredytowa nie jest wymagana

Jak mógłbyś ocenić to narzędzie?

Rozmawiająca głowa

Wynik

Jak stosować lek Rozmawiająca głowa

Wprowadź swoje wpisy

Kliknij wygenerować

Pobierz & dzielenie

Użyj tego narzędzia przez API

Powiązane narzędzia bezpłatnego SI

Rozmawiająca głowa — FAQ

Co to jest Free.ai SI Talking Head Generator?

Naprawdę jest za darmo?

SadTalker vs premium lipsync — co powinienem wybrać?

Jakie zdjęcie najlepiej działa?

Jaki rodzaj dźwięku działa?

Ile czasu zajmuje każdy klip do generowania?

W jaki sposób jest to porównanie z D-ID / HeyGen / Synthesisa?

Mogę użyć wygenerowanej twarzy?

A co z tłem i ubraniem — czy reszta zdjęć się porusza?

Czy mogę zregenerować wiele filmów?

Czy API jest za darmo?

Czy moje przesyłki są przechowywane lub używane do treningu?

Zdobądź 10 tysięcy darmowych tokenów

Poczekaj, zdobądź 10 tysięcy darmowych toków!

Chcesz więcej?