Transcripción de Podcast

Uso comercial OK 380+ modelos Sin marca de agua No es necesario inscribirse
Modelo:
+ GPT-5, Claude, Gemini
Sube un episodio de podcast y obtén una transcripción limpia y marcada por el altavoz con marcadores de capítulos detectados automáticamente desde espacios de silencio. Archivos de forma larga de hasta 2GB, 99 idiomas, precisión Whisper-large-v3. Exporta como SRT/VTT para tu podcast de vídeo, simplemente TXT para notas de show o JSON para editar en flujos de trabajo de estilo Descript.

Arrastre y suelte su episodio de podcast, o haga clic para navegar

MP3, WAV, M4A, OGG, MP4 — episodios de forma larga de hasta 2 GB

Los marcadores de capítulos se computan al lado del cliente desde huecos de segmento y se adjuntan a la transcripción. Peguelos en las descripciones de YouTube o Spotify tal y como está.
Estimación de token para este clip
Transcripciones de podcast
Capítulos detectados automáticamente

Transcribir tu podcast...

Los episodios largos tardan varios minutos. Puede cerrar esta pestaña si se comprueba el email- when-done.

Construido para podcasters + editores de show

Mostrar las notas en una sola pasta

Sube el episodio, descarga el TXT. Etiquetas de altavoz en línea, marcas de tiempo de capítulo listas para tu descripción de Spotify/YouTube, entrada de blog escrita en 10 minutos en lugar de 4 horas.

Subtítulos de podcast de vídeo

Exporte SRT o WebVTT con etiquetas de altavoz. Suba directamente a Premiere, Final Cut o DaVinci Resolve, o suba junto a su vídeo de YouTube para obtener subtítulos limpios.

Edición de episodios basada en texto

La exportación de JSON le da cada palabra con marcas de tiempo de inicio/final. Pipe into Descript, Reaper, or a custom workflow — edite resaltando el texto en lugar de fregar.

Cómo funciona la transcripción del podcast

  1. Arrastre su episodio a la zona de caída — MP3, WAV, M4A, MP4, hasta 2 GB.
  2. Deje las etiquetas del altavoz y los marcadores de capítulo encendidos (son los predeterminados). Elija su formato de salida.
  3. Comprobamos la duración + precio antes de pasar cualquier tokens. Haga clic en Transcribir.
  4. Descargue los marcadores de capítulo TXT, SRT, VTT o JSON marcados con el altavoz.

Free.ai transcripción de podcast vs Descriptor, Riverside, Nutria

Característica Free.ai Descript Riverside Otter.ai
PrecioPay-per-use ($0.003/min)$15-30/mo$19/mo$16.99/mo
Tamaño máximo del archivo2 GB5 GBTied to record session500 MB (varies)
Diarización del altavoz
Marcadores automáticos de capítulos (basado en el silencio)ManualPaid tier
Exportación SRT/VTTPaid
Idiomas9922100+English-focused
API públicaLimited
Los precios de los competidores reflejan los niveles de la lista pública en 2026. Compruebe cada proveedor para los planes actuales.
Opciones avanzadas
Resultado
Los tokens se están agotando. Obtener más tokens
¿Quieres mejores resultados? Modelos premium (GPT-5, Claude, Gemini) ofrecen una mayor calidad. Ver los planes

❤️ Love this tool? Share it!

Regístrate para obtener un enlace de referencia y ganar 25.000 tokens por amigo.

¿Quieres más? Regístrate gratis por 30K tokens/día + 10K bonus
Regístrate gratis

Procesando su solicitud...

Transcribe los podcasts al texto con IA de forma gratuita.

Cómo usar Transcripción de Podcast

1
Introduzca su entrada

Escriba texto, cargue un archivo o describa lo que desee. No necesita cuenta.

2
Haga clic en generar

Nuestra IA procesa su solicitud en segundos utilizando los mejores modelos de código abierto.

3
Descargar & compartir

Descarga, copia o comparte tu resultado. Gratis para uso personal y comercial.

Utilice esta herramienta a través de API

Automatice esta herramienta a partir de su propio código. Endpoint REST compatible con OpenAI, Auth Token de Portador, no requiere SDK adicional. Los costos de token coinciden con la interfaz web.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"file": "@audio.mp3", "language": "auto"}'

Transcripción de Podcast — FAQ

Transcripción de Podcast de podcast defaults a diarización de altavoces y marcadores de capítulos (detección de silencio-gap > 2s), y admite archivos de forma larga hasta 2GB. Los formatos de salida incluyen SRT + VTT para clips de vídeo de notas, TXT plano para posts de blog y JSON estructurado con marcas de tiempo por turno + etiquetas de altavoz para editar en flujos de trabajo de estilo Descript.

Hasta 2 GB por archivo — aproximadamente un podcast de audio de 14 horas a 128 kbps MP3. Los archivos largos están cortados del lado del servidor para la resiliencia; se obtiene una única transcripción fusionada de nuevo.

Sí. La diarización del altavoz está ON por defecto. Detectamos 2-10 voces distintas a través de las incrustaciones de voz de ECPA, las etiquetamos Speaker 1 / 2 /... y aplicamos las etiquetas a cada segmento. Puede renombrarlas en la vista de resultados.

Espacios de silencio de más de 2 segundos — los podcasters de rupturas naturales usan entre segmentos. Cada capítulo tiene una marca de tiempo que puede pegar directamente en sus notas con un bloque "Capítulos:" para YouTube + Spotify.

El descriptor cobra $15-$30 al mes por 10 horas de transcripción, ligadas a su editor. Cobramos por uso a ~500 tokens/min en Whisper ($5 = 200K tokens = ~400 minutos), sin suscripción, simple exportación se puede pegar en cualquier lugar.

Riverside es un estudio de grabación que transcribe sus propias sesiones de forma gratuita dentro de su aplicación, pero sólo después de grabar con ellas. Transcribimos cualquier MP3/WAV/MP4 independientemente de dónde se grabó.

Gorras de la nutria a 300 minutos/mes en el nivel libre y está centrado en Inglés. Soportamos 99 idiomas con la misma precisión Whisper-large-v3 sin tope mensual — usted paga por minuto transcrito.

Sí — elija SRT o WebVTT como formato de salida. Las etiquetas de altavoz están incluidas en línea (SRT) o como etiquetas <v Speaker N> (VTT) que la mayoría de los jugadores modernos representan correctamente.

Whisper-large-v3 maneja bien las camas de música y la reverberación ligera (típica tasa de error de palabra 3-7%). La música muy fuerte o la superposición pesada degrada la precisión — considere ejecutar /music/vocal-remover/ primero en una copia, o dividir sus aperturas en frío.

Whisper maneja los nombres más comunes, pero la jerga altamente específica de la marca puede necesitar un pase de post-edición. Un episodio de ~30 minutos típicamente tiene 5-10 correcciones de marca/nombre para aplicar manualmente.

Carguelos uno a la vez aquí, o utilice nuestra función /batch/ una vez firmado para hacer cola en una temporada. La API en /api/ también acepta POST /v1/stt/ para la programación por lotes.

No. Los archivos cargados se eliminan después de la transcripción completa. Su transcripción se encuentra en su /cuenta / historial para su descarga si se ha iniciado; los usuarios anónimos obtienen un enlace de 24 horas compartido.

Regístrate gratis por 30.000 tokens

Crear cuenta gratuita

No se requiere tarjeta de crédito

¿Cómo calificaría a esta herramienta?

Love this tool? Share it!