IA Video Dubbing Studio

Uso comercial OK 380+ modelos Sin marca de agua No es necesario inscribirse
Modelo:
+ GPT-5, Claude, Gemini
Sube un clip de cabeza parlante y mételo doblado en otro idioma con movimiento de boca sincronizada. Susurra transcripciones, traduce MadLAD, Kokoro habla en 174 voces a través de 37 idiomas, y Sync Lipsync v2 vuelve a renderizar la boca. El 99% de los clips detectan automáticamente el idioma fuente.

Arrastre un vídeo aquí o haga clic para cargar

MP4, MOV, WebM hasta 100MB · cabezal de voz de un solo orador funciona mejor

Whisper detecta el lenguaje fuente en el 99% de los clips. Anule sólo si el auto-detectar adivina mal.
Haga clic en Previsualización para escuchar la voz hablar una frase corta en su idioma de destino antes de doblar todo el clip.
Útil si el vídeo tiene música o sonido FX que desea preservar debajo de la nueva voz. Off = clean single-voice dub.
Estimación de token para su clip
Sube un vídeo para ver el costo exacto de tu clip.
Tuberías de doblaje
Transcripción original
Traducido a
Descargar

Donde el doblaje de vídeo de IA se paga a sí mismo

Localizar canales de YouTube

Convierta un vídeo inglés en versiones en español, portugués y hindi durante la noche. El intercambio de audio en YouTube permite que una sola carga sirva 3× al público con un movimiento de boca en forma de labios.

Anuncio global creativo

Dispara un anuncio, dobla en 20 idiomas para una prueba A/B de una semana. Es mejor que pagar un estudio de voz en off $500/minuto por idioma.

E-learning + corporate training

Compliance, a bordo, y videos de formación de productos que necesitan una docena de idiomas sin un presupuesto de estudio. El mismo curso, cada mercado.

Cómo funciona la tubería de doblaje

Medida 1

Transcribir (Whisper large-v3)

El audio del vídeo se extrae y transcribe con temporización a nivel de palabra. El lenguaje fuente se detecta automáticamente con precisión del 99%.

Medida 2

Traducir (MadLAD-400)

La transcripción se traduce al lenguaje objetivo con un modelo de parámetro 3B sintonizado para fraseo oral natural, no literal palabra por palabra.

Medida 3

Habla (Kokoro — 174 voces)

Una voz natural en el idioma de destino lee la traducción. 174 voces a través de 37 idiomas — elija uno y escuche una vista previa primero.

Medida 4

Sincronización de labios (Sync Lipsync v2)

La boca se vuelve a renderizar fotograma por fotograma para que coincida con el nuevo audio. Estado de la técnica para tomas de un solo altavoz orientadas hacia adelante.

¿Por qué no Rask, Papercup o HeyGen?

Rask cobra $24/mo por 100 minutos de salida y topes en 130 idiomas de origen. Papercup es sólo para empresas (ventas de llamadas, esperar facturas de 4 cifras). El nivel de doblaje de HeyGen comienza en $29/mo con una cuota de 5 minutos. Esta herramienta utiliza los mismos componentes de tuberías — Whisper for STT, MadLAD for translation, Kokoro for TTS, Sync Lipsync v2 for mouth re-rendering — sin suscripción, sin marca de agua, sin cuota mensual. Usted paga fichas de la piscina que ya tiene.

Opciones avanzadas
Resultado
Los tokens se están agotando. Obtener más tokens
¿Quieres mejores resultados? Modelos premium (GPT-5, Claude, Gemini) ofrecen una mayor calidad. Ver los planes

❤️ Love this tool? Share it!

Regístrate para obtener un enlace de referencia y ganar 25.000 tokens por amigo.

¿Quieres más? Regístrate gratis por 30K tokens/día + 10K bonus
Regístrate gratis

Procesando su solicitud...

Dub cualquier vídeo en más de 20 idiomas con movimiento de labios sincronizado. Susurra transcripciones, MadLAD traduce, Kokoro habla, Sync Lipsync v2 coincide con la boca.

Cómo usar IA Video Dubbing Studio

1
Introduzca su entrada

Escriba texto, cargue un archivo o describa lo que desee. No necesita cuenta.

2
Haga clic en generar

Nuestra IA procesa su solicitud en segundos utilizando los mejores modelos de código abierto.

3
Descargar & compartir

Descarga, copia o comparte tu resultado. Gratis para uso personal y comercial.

Utilice esta herramienta a través de API

Automatice esta herramienta a partir de su propio código. Endpoint REST compatible con OpenAI, Auth Token de Portador, no requiere SDK adicional. Los costos de token coinciden con la interfaz web.

curl -X POST https://api.free.ai/v1/video/generate/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"prompt": "A cat playing piano", "duration": 4}'

IA Video Dubbing Studio — FAQ

Sube un video, elige un idioma de destino y regresa el mismo video doblado en ese idioma con los labios del altavoz resincronizados para que coincida con el nuevo audio. Excelente para convertir contenido de YouTube en inglés en español, francés, chino, etc.

Cuatro pasos ejecutan el lado del servidor en secuencia: (1) Whisper transcribe el audio original, (2) MadLAD traduce la transcripción a su idioma de destino, (3) Kokoro genera habla natural en ese idioma, (4) Sync Lipsync v2 remapea la boca del altavoz para que coincida con la nueva voz. Todo hecho en una petición, sin malabares usted mismo.

El menú desplegable cubre 20 idiomas de primera demanda (español, francés, alemán, portugués, italiano, chino, japonés, coreano, árabe, hindi, turco, ruso, holandés, polaco, vietnamita, indonesio, tailandés, hebreo, sueco, inglés). MadLAD técnicamente apoya más de 450 — ping nosotros si usted necesita otros.

Dubbing utiliza tokens pagados solamente (~100.000 por clip). Sync Lipsync v2 es el paso caro — los tres primeros son auto-anfitriones gratuitos. Los créditos de bonificación de registro no desbloquean IA Video Dubbing Studio.

Clips de menos de 30 segundos dub en aproximadamente 1-3 minutos. Los videos más largos toman proporcionalmente más tiempo. Tapa dura 100 MB de carga. Para el trabajo de larga duración, dividir en escenas y dub cada uno.

No — Kokoro utiliza una de las 174 voces incorporadas (37 idiomas), no una versión clonada del altavoz original. Para la clonación de voz que conserva la identidad necesitarías nuestra herramienta /voice/clone/ separada más una tubería personalizada.

Sync Lipsync v2 es el estado de la técnica para tomas de un solo altavoz orientadas hacia adelante. Escenas de varios altavoces o clips de vista de perfil pueden derivar. Los mejores resultados provienen de imágenes de primer plano de cabezal de conversación.

El simple selector ofrece Auto / Hombre / Mujer. Para la selección de voz de grano fino, utilice /voice/tts/ primero para previsualizar y copiar el ID de voz, entonces podemos cablear a través. Próximamente en la interfaz de usuario.

No. El vídeo subido se elimina en cuestión de minutos de procesamiento. La salida se mantiene en nuestra CDN durante 24h (7d para los usuarios pagados) en el enlace de compartir.

Sí — para ese flujo de trabajo puro de sincronización de labios (su vídeo + su audio pregrabado), utilice el /v1/image/edit/ subyacente o un punto final personalizado. Dubbing combina los cuatro pasos automáticamente.

Usar /transcribir/ para archivos de subtítulos (SRT/VTT), o /translate/subtitle/ para traducir un SRT existente. Dubbing reemplaza el audio; subtítulos overlay text — different outputs.

Sí — POST multipart video a /v1/video/dobbing/ con target_lang. Devuelve {output_url, transcription, translated_text}. Véase /api/ para documentos.

Regístrate gratis por 30.000 tokens

Crear cuenta gratuita

No se requiere tarjeta de crédito

¿Cómo calificaría a esta herramienta?

Love this tool? Share it!