Speech to Text

Uso comercial OK 380+ modelos Sin marca de agua No es necesario inscribirse
Modelo:
+ GPT-5, Claude, Gemini
Cargue un archivo de audio o vídeo —o pegue una URL— y obtenga una transcripción limpia con marcas de tiempo. Diarización del altavoz, exportación de subtítulos SRT/VTT, más de 100 idiomas con autodetección. Escalas de costos exactamente con longitud de clip. Powered by Whisper large-v3 and Parakeet (auto-hosted), además de Wizper premium y ElevenLabs STT.

Arrastre y suelte audio/vídeo, o haga clic para navegar

MP3, WAV, MP4, WebM, M4A — hasta 500MB

Whisper large-v3 — 99 idiomas, la mejor precisión de su clase.
Estimación de token para este clip
YouTube, Instagram, TikTok, Spotify y más de 1.300 plataformas
El costo de transcripción de URL se basa en la duración real del clip — cotizamos después de la descarga. Espere ~500 tokens/minuto en Whisper.
Grabación: 0:00

Transcripción en tiempo real con el micrófono

Transcripción

Transcribir tu audio...

Esto puede tomar un momento para archivos más largos.

Lo que las personas transcriben con Free.ai

Interviews + podcasts

Diarización etiqueta cada altavoz. Exportar SRT directamente a su editor de vídeo, o texto plano para una redacción de artículo.

Auto captions + subtitles

Sube una carga de YouTube o TikTok, elige SRT o WebVTT y graba los subtítulos con /video/subtitle/. Flujo de trabajo de subtítulos único.

Notas para las reuniones

Upload a Zoom/Teams recording — get transcript + speaker labels. Pair with /write/summarize/ for bullet-point minutes.

Lectures + lessons

Transcribe una conferencia de 90 minutos, luego usa /study/flashcards/ o /write/summarize/ para convertirlo en material de estudio.

Audio en idioma extranjero

Whisper auto-detecta 99 idiomas. Transcribir en el original, a continuación, enviar el texto a través de /translate/ para saltar idiomas.

Legal + medical

Marcas de tiempo, etiquetas de altavoz, exportación de JSON con el tiempo de inicio/final de cada palabra — reporter de corte preciso o preparación de notas clínicas.

Cómo se compara la transcripción Free.ai

Lo que consigues Free.ai Otter.ai Descript Rev.com
Uso diario gratuito5K+ tokens/day300 minutes/mo1 hr/month
MotorWhisper large-v3, ParakeetProprietaryProprietaryHuman + AI
Idiomas99English-focused2230+
Diarización del altavoz
Exportación SRT / VTTPaidPaid
API públicaLimitedLimited
Transmisión en vivo STT (gratuito) Paid
Se requiere inscripciónNoYesYesYes
Las cifras de los competidores reflejan los niveles libres enumerados públicamente a partir de 2026. Compruebe cada proveedor para los planes actuales.
Opciones avanzadas
Resultado
Los tokens se están agotando. Get More Tokens
Want better results? Modelos premium (GPT-5, Claude, Gemini) deliver higher quality. View Plans

❤️ Love this tool? Share it!

Regístrate para obtener un enlace de referencia y ganar 25.000 tokens por amigo.

¿Quieres más? Regístrate gratis por 5K tokens/día + 10K bonus
Regístrate gratis

Procesando su solicitud...

Best free speech to text tool. Upload MP3, WAV, MP4 or record live. Auto-detect language. Speaker diarization. No sign up required.

Cómo usar Speech to Text

1
Introduzca su entrada

Escriba texto, cargue un archivo o describa lo que desee. No necesita cuenta.

2
Haga clic en generar

Nuestra IA procesa su solicitud en segundos utilizando los mejores modelos de código abierto.

3
Descargar & compartir

Descarga, copia o comparte tu resultado. Gratis para uso personal y comercial.

Utilice esta herramienta a través de API

Automatice esta herramienta a partir de su propio código. Endpoint REST compatible con OpenAI, Auth Token de Portador, no requiere SDK adicional. Los costos de token coinciden con la interfaz web.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"file": "@audio.mp3", "language": "auto"}'

Speech to Text — FAQ

Free.ai ofrece un lenguaje con Whisper para texto con excelente precisión, 99 idiomas, exportación de subtítulos, detección de altavoces y captura de micrófonos en vivo, completamente gratis.

Cargue un archivo de audio o vídeo (MP3, WAV, MP4, M4A), haga clic en Transcribir y obtenga voz exacta al texto en segundos. O grabe en vivo desde su micrófono.

Sí. Pegue cualquier URL de YouTube en la pestaña URL y Speech To Text de voz a texto extrae el audio y lo convierte. Funciona con las plataformas Instagram, TikTok, Spotify y 1.300+.

Sí. Autodetectar o seleccionar entre 99 idiomas. Nuestro discurso al texto maneja bien los acentos, el ruido de fondo y el audio en lenguaje mixto.

Sí. Seleccione varios archivos de audio a la vez — cada uno se envía a través de voz a texto con seguimiento de progreso y los resultados se pueden descargar por separado o combinados.

Sí. El discurso a la API de texto en /api/ es compatible con OpenAI. Sube audio programáticamente y recibe JSON con la transcripción, el idioma y las marcas de tiempo.

Sí. Toggle Speaker Detection antes de subir y el discurso a la salida de texto está etiquetado por altavoz (Speaker 1, Speaker 2...). Añade 50% al costo token.

El discurso al texto acepta archivos de hasta 500 MB por carga. Para contenido de varias horas, divida primero el audio en trozos.

Muy precisa para el audio claro, normalmente 95% más precisión de palabra en inglés con nuestro motor Whisper large-v3. La calidad depende de la claridad del audio, el acento y el ruido de fondo.

Sí. La transcripción es completamente editable en el lugar. Corregir errores, formatear y copiar/descargar como TXT, SRT o VTT.

Sí. El audio se procesa en nuestras propias GPUs y se elimina después de completar el discurso al texto. Nada se almacena a largo plazo, se comparte o se utiliza para el entrenamiento.

Sí. Sube un archivo de audio o vídeo en /chat/ y pídele a la IA que lo transcriba: combina el discurso con el texto con preguntas de seguimiento y resumen en un flujo de trabajo.

Regístrate gratis por 10.000 tokens

Crear cuenta gratuita

No se requiere tarjeta de crédito

¿Cómo calificaría a esta herramienta?

Love this tool? Share it!