ElevenLabs STT

Free.ai · stt · ~500 tokens per minute

Subir audio

Suelta un archivo de audio o vídeo, o pega una URL debajo

~500 tokens per minute

Es gratis en nuestras GPUs. Actualizar para ElevenLabs STT →

ElevenLabs STT es a Modelo de discurso a texto. Enrutado a través de modelos externos — ~500 tokens por minuto(marque del 50% sobre el coste ascendente).

Uso a través de API

API REST compatible con OpenAI. Genera una clave y llama a este modelo en segundos.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'

Documentación API Obtener clave de API

Modelos similares

Fal Speech-to-Text

Wizper (Whisper v3)

Examinar todos los modelos →

Preguntas frecuentes

ElevenLabs STT transcribe audio hablado al texto. Sube un archivo MP3, WAV, M4A o vídeo y ElevenLabs STT devuelve la transcripción completa más subtítulos opcionales SRT/VTT con marcas de tiempo.

ElevenLabs STT maneja docenas de idiomas — Whisper-family models cover 90+, Parakeet covers ~25, otros varían. Elija "auto-detectar" o especifique el idioma para la mayor precisión.

La tasa de error de palabra es del 5 al 10% en audio inglés limpio, del 10 al 20% en audio ruidoso o acentuado. Las grandes variantes de la misma arquitectura lo hacen significativamente mejor en los casos duros — elija más grande cuando el audio es áspero.

Sí — cada segmento incluye marcas de tiempo de inicio/final. Exportar como SRT o VTT y el mapa de tiempos directamente en su vídeo.

ElevenLabs STT es un motor de transcripción premium. Cerca de ~500–1,500 tokens por minuto de audio. $1 = 750.000 tokens.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — extraemos el audio. Máximo 500 MB por carga. Archivos más largos? Dividir con /audio/cut/ o utilizar /v1/stt/batch/.

Diarización del altavoz es un pase separado — alternar "diarizar" en /transcribe/. ElevenLabs STT maneja la transcripción; etiquetas de diarización cada segmento con el altavoz 1 / altavoz 2 / etc.

Sí — /batch/ acepta una carpeta de archivos de audio. Cada transcripción aterriza en /account/?tab=historia con el nombre de archivo original. Para la preservación de árbol de carpetas use la API.

Sí — POST su audio a /v1/stt/transcribe/ con model="ElevenLabs STT". Devuelve JSON con texto + segmentos + marcas de tiempo a nivel de palabra. /api/ tiene la referencia completa.

Los modelos auto-anfitriones mantienen audio en nuestras GPUs; pase premium con un DPA. El audio se elimina después de la ventana compartida (24h anon, 7d signed-in). No entrenamos en sus entradas.

Sí — Free.ai otorga uso comercial de transcripciones. Necesita derechos sobre el audio que subió (su propia grabación, material licenciado o contenido con consentimiento).

El factor en tiempo real es aproximadamente 0,05–0,2× — un podcast de 60 minutos se transcribe en 3–12 minutos. Los modelos premium a menudo terminan más rápido. Utilice el botón de cola para cerrar la pestaña.

ElevenLabs STT

Uso a través de API

Modelos similares

Preguntas frecuentes

¿Qué hace ElevenLabs STT?

¿Cuántos idiomas admite ElevenLabs STT?

¿Qué tan preciso es ElevenLabs STT?

¿Incluye ElevenLabs STT las marcas de tiempo?

¿Cuánto cuesta ElevenLabs STT por minuto?

¿Qué formatos de audio puedo subir a ElevenLabs STT?

¿Puede ElevenLabs STT identificar diferentes altavoces?

¿Puedo transcribir por lotes con ElevenLabs STT?

¿Hay una API para ElevenLabs STT?

¿Qué hay de la privacidad cuando transcribo con ElevenLabs STT?

¿La salida ElevenLabs STT es segura para uso comercial?

¿Cuánto tiempo toma ElevenLabs STT?

Obtener 10.000 tokens gratis

Espere... ¡Obtenga 10 mil tokens gratis!

¿Quieres más?