STT Online

Uso comercial OK 380+ modelos Sin marca de agua No es necesario inscribirse
Modelo:
+ GPT-5, Claude, Gemini
Cargue un archivo de audio o vídeo —o pegue una URL— y obtenga una transcripción limpia con marcas de tiempo. Diarización del altavoz, exportación de subtítulos SRT/VTT, más de 100 idiomas con autodetección. Escalas de costos exactamente con longitud de clip. Powered by Whisper large-v3 and Parakeet (auto-hosted), además de Wizper premium y ElevenLabs STT.

Arrastre y suelte audio/vídeo, o haga clic para navegar

MP3, WAV, MP4, WebM, M4A — hasta 500MB

Whisper large-v3 — 99 idiomas, la mejor precisión de su clase.
Estimación de token para este clip
YouTube, Instagram, TikTok, Spotify y más de 1.300 plataformas
El costo de transcripción de URL se basa en la duración real del clip — cotizamos después de la descarga. Espere ~500 tokens/minuto en Whisper.
Grabación: 0:00

Transcripción en tiempo real con el micrófono

Transcripción

Transcribir tu audio...

Esto puede tomar un momento para archivos más largos.

Lo que las personas transcriben con Free.ai

Interviews + podcasts

Diarización etiqueta cada altavoz. Exportar SRT directamente a su editor de vídeo, o texto plano para una redacción de artículo.

Auto captions + subtitles

Sube una carga de YouTube o TikTok, elige SRT o WebVTT y graba los subtítulos con /video/subtitle/. Flujo de trabajo de subtítulos único.

Notas para las reuniones

Upload a Zoom/Teams recording — get transcript + speaker labels. Pair with /write/summarize/ for bullet-point minutes.

Lectures + lessons

Transcribe una conferencia de 90 minutos, luego usa /study/flashcards/ o /write/summarize/ para convertirlo en material de estudio.

Audio en idioma extranjero

Whisper auto-detecta 99 idiomas. Transcribir en el original, a continuación, enviar el texto a través de /translate/ para saltar idiomas.

Legal + medical

Marcas de tiempo, etiquetas de altavoz, exportación de JSON con el tiempo de inicio/final de cada palabra — reporter de corte preciso o preparación de notas clínicas.

Cómo se compara la transcripción Free.ai

Lo que consigues Free.ai Otter.ai Descript Rev.com
Uso diario gratuito5K+ tokens/day300 minutes/mo1 hr/month
MotorWhisper large-v3, ParakeetProprietaryProprietaryHuman + AI
Idiomas99English-focused2230+
Diarización del altavoz
Exportación SRT / VTTPaidPaid
API públicaLimitedLimited
Transmisión en vivo STT (gratuito) Paid
Se requiere inscripciónNoYesYesYes
Las cifras de los competidores reflejan los niveles libres enumerados públicamente a partir de 2026. Compruebe cada proveedor para los planes actuales.
Opciones avanzadas
Resultado
Los tokens se están agotando. Get More Tokens
Want better results? Modelos premium (GPT-5, Claude, Gemini) deliver higher quality. View Plans

❤️ Love this tool? Share it!

Regístrate para obtener un enlace de referencia y ganar 25.000 tokens por amigo.

¿Quieres más? Regístrate gratis por 5K tokens/día + 10K bonus
Regístrate gratis

Procesando su solicitud...

Free STT tool powered by Whisper large-v3. Upload audio/video, get accurate speech recognition. Export SRT, VTT, TXT. 99 languages.

Cómo usar STT Online

1
Introduzca su entrada

Escriba texto, cargue un archivo o describa lo que desee. No necesita cuenta.

2
Haga clic en generar

Nuestra IA procesa su solicitud en segundos utilizando los mejores modelos de código abierto.

3
Descargar & compartir

Descarga, copia o comparte tu resultado. Gratis para uso personal y comercial.

Utilice esta herramienta a través de API

Automatice esta herramienta a partir de su propio código. Endpoint REST compatible con OpenAI, Auth Token de Portador, no requiere SDK adicional. Los costos de token coinciden con la interfaz web.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"file": "@audio.mp3", "language": "auto"}'

STT Online — FAQ

STT (Speech-to-Text) convierte el audio hablado en texto escrito usando AI. Free.ai corre Whisper large-v3 — el modelo de reconocimiento de voz de código abierto más preciso — en nuestras propias GPUs.

Sí. Cargar archivos de audio hasta 500MB. STT cuesta ~500 tokens por minuto de audio. Usted obtiene 2.500–5.000 tokens gratis por día — varios archivos por día de forma gratuita.

STT acepta MP3, WAV, MP4, WebM, M4A, OGG, FLAC — prácticamente cualquier formato de audio o vídeo — hasta 500MB por carga.

Sí. STT resultados de exportación como TXT, SRT (subtítulos), o VTT (títulos web). Perfecto para subtítulos de YouTube y subtítulos de vídeo.

Nuestro STT utiliza Whisper large-v3 — típicamente 95% más precisión de palabra para el inglés claro y excelente calidad en 99 idiomas.

Sí. Habilitar la diarización del altavoz en las opciones STT y los segmentos de etiquetas de IA como altavoz 1, altavoz 2, etc. Cuesta 50% más tokens.

Sí. La API STT es compatible con OpenAI — audio POST a /v1/audio/transcripciones y recibe JSON. Funciona desde cualquier idioma que pueda enviar solicitudes HTTP.

Sí. La pestaña Live captura tu micrófono y lo transmite a través de STT en tiempo real con una latencia mínima.

Sí. Pegue una URL de YouTube, TikTok, Instagram, Spotify o Vimeo y STT extrae el audio y lo transcribe. 1.300+ plataformas soportadas.

Rápido — un clip de 1 minuto termina en segundos, una grabación de 30 minutos en aproximadamente un minuto, un archivo de 1 hora en aproximadamente 2 minutos. Whisper se ejecuta en nuestro clúster GPU.

Sí. El audio se procesa en nuestras propias GPUs y se elimina después de completar STT. Nunca se almacena a largo plazo, nunca se comparte, y nunca se utiliza para el entrenamiento de modelos.

Whisper large-v3 — el modelo Whisper más grande y preciso (1.55B parámetros). Lo auto-anfitrionamos en GPUs A100 para la velocidad y la privacidad.

Regístrate gratis por 10.000 tokens

Crear cuenta gratuita

No se requiere tarjeta de crédito

¿Cómo calificaría a esta herramienta?

Love this tool? Share it!