หัวพูดของ AIName

ใช้ในเชิงพาณิชย์ได้ 380+ โมเดล ไม่มีสัญลักษณ์น้ำ ไม่ต้องลงทะเบียน
รุ่น:
+ GPT-5, Claude, Gemini
Animate any portrait photo to speak. Drop a face image + an audio file (or paste TTS text), AI generates a video of the face talking with synchronized lip movements. Powered by SadTalker — fast and reliable for professional talking-head explainer videos.

PNG/JPG — ภาพแนวตั้งมองด้านหน้า, หน้าเรียบ

MP3/ WAV - หรือทิ้งไว้ว่างไว้ + ใช้ TTS ด้านล่างนี้

หากคุณให้เสียงไว้ด้านบน ข้อความนี้จะถูกละเลย ความยาวสูงสุด 1,000 ตัวอักษร
~6,000 ชิ้นต่อคลิป (ฟรี) ค่าพิเศษขึ้นอยู่กับความยาว
ดาวน์โหลด
ตัวเลือกระดับสูง
ผลลัพธ์
เหรียญหมดแล้ว เอาชิปเพิ่ม
ต้องการผลลัพธ์ที่ดีกว่านี้ไหม? รุ่นพิเศษ (GPT-5, Claude, Gemini) ทำให้คุณภาพดีขึ้น แสดงแผน

❤️ Love this tool? Share it!

ลงทะเบียนเพื่อรับลิงค์แนะนำ และรับ 25,000 โต๊กเกอร์ต่อเพื่อน

อยากได้อีกมั้ย ลงทะเบียนฟรี 30K ชิ้น/วัน + 10K โบโน
ลงทะเบียน

กำลังประมวลผลคำขอของคุณ...

สร้างภาพถ่ายรูปใดๆ ขึ้นมาให้พูดได้ SadTalker ฟรี (โฮสต์เอง) หรือ lipsync ระดับพรีเมี่ยม - วางรูปหน้า + เสียง แลกกับวิดีโอหัวพูดที่ทำการซิงค์กับริมฝีปาก เหมาะสำหรับผู้อธิบาย, ตัวละคร, เสียงในวิดีโอ

วิธีการใช้ หัวพูดของ AIName

1
เติมข้อมูลของคุณ

พิมพ์ข้อความ, โหลดแฟ้ม, หรืออธิบายสิ่งที่คุณต้องการ ไม่จำเป็นต้องมีบัญชีผู้ใช้

2
คลิกสร้าง

ระบบ AI ของเราจะประมวลผลคำขอของคุณในไม่กี่วินาที โดยใช้แบบจำลอง Open Source ที่ยอดเยี่ยม

3
ดาวน์โหลดและแบ่งปัน

ดาวน์โหลด, คัดลอก, หรือแบ่งปันผลลัพธ์ของคุณ ฟรีสำหรับใช้ส่วนตัวและใช้ในเชิงพาณิชย์

ใช้เครื่องมือนี้ผ่าน API

สร้างเครื่องมือนี้โดยอัตโนมัติจากโค้ดของคุณเอง จุดจบ REST ที่เข้ากันได้กับ OpenAI, การตรวจสอบสิทธิ์ด้วยโทเค็นผู้ใช้, ไม่จำเป็นต้องใช้ SDK เพิ่มเติม ค่าโทเค็นจะตรงกับส่วนติดต่อของเว็บ

curl -X POST https://api.free.ai/v1/video/generate/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"prompt": "A cat playing piano", "duration": 4}'

หัวพูดของ AIName — FAQ

โหลดรูปภาพรูปภาพ + คลิปเสียง (หรือแฟ้มเสียง) AI จะทำการเคลื่อนไหวใบหน้าเพื่อปรับเสียงให้เข้ากับริมฝีปาก ภาพออกมาจะเป็นวิดีโอ MP4 ของรูปภาพ "พูด" เสียงด้วยการเคลื่อนไหวปากที่แท้จริง หัวสั่น และกระพริบตา มี2แบบ: SadTalker ฟรี (โฮสต์เอง, MIT) หรือ lipsync ระดับพรีเมี่ยม (ปากที่คมชัดกว่า, เร็วกว่า)

ใช่ — SadTalker ทำงานบน GPU ที่เราโฮสต์เอง โดยฟรีในสระท็อกนประจำวัน คลิปแต่ละคลิปมีราคา ~6,000 โต๊กนพื้นฐาน + 800 โต๊กนต่อวินาทีของเสียง ดังนั้น คลิป 10 วินาที มีราคา ~14,000 โต๊กน คนนิรนามได้รับ 2,500/วัน คนที่เข้าใช้งานได้ 10,000/วัน ค่าพิเศษปรับขนาดตามความยาวด้วย แต่ด้วยผลลัพธ์ที่ชัดเจนกว่า

SadTalker (ปริยาย) เป็นโปรแกรมฟรีและสร้างหัวพูดตามธรรมชาติด้วยการเคลื่อนไหวของหัว + กระพริบตา Premium lipsync มีรูปร่างปากที่คมชัดกว่า (โดยเฉพาะสำหรับ plosives และ bilabials เช่น "p", "b", "m") และแสดงผลเร็วขึ้น 2-3เท่าบนเสียงยาว สำหรับผู้อธิบายและอวตารของสังคม SadTalker นั้นยอดเยี่ยม สำหรับเสียงดนตรีที่มีความแม่นยำสูงและเนื้อหาที่สำคัญเกี่ยวกับ lip-sync เปลี่ยนเป็น premium

ภาพบุคคลมองหน้า ใบหน้าชัด แสงสว่างสม่ำเสมอ สีหน้าเป็นกลาง ใบหน้าควรจะเต็มพื้นที่อย่างน้อย 30% ของกรอบภาพ หลีกเลี่ยงการใส่แว่นกันแดดหนัก (มันจะทำลายการติดตามตา) ภาพโปรไฟล์ (ตัวอย่างต้องมีทั้งสองตาให้เห็น) และสีหน้าที่ดูแปลกๆ ภาพถ่ายหน้าและภาพเซลฟี่ที่ถ่ายจากสตูดิโอจะดูดีมาก

เสียงพูดชัดเจนในรูปแบบ WAV หรือ MP3 SadTalker สามารถจัดการคลิป 1- 30 วินาทีได้อย่างน่าเชื่อถือ รองรับคลิปที่ยาวกว่า แต่ช้ากว่า สำหรับการปรับปรุงการปรับปรุงลิปไซค์ ให้ใช้ลำโพงตัวเดียว เสียงรบกวนในพื้นหลังต่ำ และเสียงพูดชัดเจน สร้างเสียงผ่าน / tts / ก่อน หากต้องการสคริปต์หัวพูด

SadTalker ใช้เวลา GPU ประมาณ 10 วินาทีต่อวินาทีของเสียง ดังนั้น หัวพูด 10 วินาทีใช้เวลา ~100 วินาที ลิปซินค์ระดับพรีเมี่ยมทำงานเร็วกว่า (~3-5วินาทีต่อวินาทีของเสียง) แต่มีราคาแพงกว่า ทั้งสองตัวทำงานบน A100s ของเรา - คุณสามารถปิดแท็บและผลลัพธ์จะปรากฏในแดชบอร์ดของคุณ

ดี-ไอดี คิดค่าบริการ 5.99 ดอลลาร์ต่อเดือนสำหรับวิดีโอ5นาที เฮย์เจน คิดค่าบริการ 24 ดอลลาร์ต่อเดือน ซินเทเซีย คิดค่าบริการ 30 ดอลลาร์ต่อเดือน เราให้คุณใช้ SadTalker ฟรีในวันละ 1 ครั้ง — คุณภาพเท่ากันสำหรับวิดีโออธิบาย/อวตาร ลิปซินค์ระดับพรีเมี่ยม เท่ากับคุณภาพของดี-ไอดี สตูดิโอ ตัวเลือกฟรีนั้นดีพอสำหรับ TikTok / YouTube ใช้ได้ในเวลาสั้นๆ

ใช่ — สร้างหน้าผ่านทาง / image/ avatar / หรือ / image/ generate / แล้วป้อนมันที่นี่ โมเดลจะทำการจัดการกับภาพใบหน้าที่มองหน้าในทางเดียวกัน ข้อความทั่วไป: คำสั่ง → ภาพใบหน้า SDXL → SadTalker ทำการเคลื่อนไหว → / tts / สำหรับเสียง → เสร็จสิ้น

SadTalker ทำการเคลื่อนไหวของบริเวณใบหน้า (ปาก ตา หัวสั่น กระพริบตา) ไหล่ เสื้อผ้า และพื้นหลัง จะคงอยู่เกือบจะไม่เปลี่ยน สำหรับหัวพูดที่แสดงการเคลื่อนไหวของร่างกายให้ใช้โมเดล lipsync ที่มีขนาดใหญ่กว่า

ใช่ — POST ไปยัง /v1/video/talking-head/ ด้วย 'image' + 'audio' หลายส่วน หรือใช้ /scheduled/ เพื่อจัดคิวหลายครั้ง /batch/ ยังรองรับ CSV ของ URL รูปภาพ + URL เสียง

ใช่ — POST multipart `image` + `audio` to /v1/video/talking-head/ on api.free.ai. Bearer auth. Returns JSON with `video_url` + `share_token`. 10,000 โต๊กเกอร์/เดือน ฟรี. Premium scales linearly with audio duration. /api/ has the curl example.

รูปภาพและเสียงจะถูกลบออกภายใน 24 ชั่วโมงหลังจากสร้างขึ้น วิดีโอที่ออกมาจะถูกเก็บไว้ใน CDN ของเราเป็นเวลา 24 ชั่วโมง (7 วันสำหรับผู้ใช้ที่จ่ายค่าบริการ) ดังนั้นคุณสามารถดาวน์โหลดมันได้อีกครั้งจาก /account/?tab=history ไม่เคยใช้ในการฝึก นโยบายความเป็นส่วนตัวเต็มที่ที่ /privacy/

ลงทะเบียนฟรี 30,000 ชิ้น

สร้างบัญชีผู้ใช้ฟรี

ไม่ต้องใช้บัตรเครดิต

คุณจะให้คะแนนเครื่องมือนี้ยังไง

Love this tool? Share it!