ElevenLabs STT

Free.ai · stt · ~500 tokens per minute

Suelta un archivo de audio o vídeo, o pega una URL debajo

~500 tokens per minute
Es gratis en nuestras GPUs. Actualizar para ElevenLabs STT →

ElevenLabs STT es a Modelo de discurso a texto. Enrutado a través de modelos externos — ~500 tokens por minuto(marque del 50% sobre el coste ascendente).

Uso a través de API

API REST compatible con OpenAI. Genera una clave y llama a este modelo en segundos.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
Documentación API Obtener clave de API

Preguntas frecuentes

ElevenLabs STT transcribe audio hablado al texto. Sube un archivo MP3, WAV, M4A o vídeo y ElevenLabs STT devuelve la transcripción completa más subtítulos opcionales SRT/VTT con marcas de tiempo.

ElevenLabs STT maneja docenas de idiomas — Whisper-family models cover 90+, Parakeet covers ~25, otros varían. Elija "auto-detectar" o especifique el idioma para la mayor precisión.

La tasa de error de palabra es del 5 al 10% en audio inglés limpio, del 10 al 20% en audio ruidoso o acentuado. Las grandes variantes de la misma arquitectura lo hacen significativamente mejor en los casos duros — elija más grande cuando el audio es áspero.

Sí — cada segmento incluye marcas de tiempo de inicio/final. Exportar como SRT o VTT y el mapa de tiempos directamente en su vídeo.

ElevenLabs STT es un motor de transcripción premium. Cerca de ~500–1,500 tokens por minuto de audio. $1 = 750.000 tokens.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — extraemos el audio. Máximo 500 MB por carga. Archivos más largos? Dividir con /audio/cut/ o utilizar /v1/stt/batch/.

Diarización del altavoz es un pase separado — alternar "diarizar" en /transcribe/. ElevenLabs STT maneja la transcripción; etiquetas de diarización cada segmento con el altavoz 1 / altavoz 2 / etc.

Sí — /batch/ acepta una carpeta de archivos de audio. Cada transcripción aterriza en /account/?tab=historia con el nombre de archivo original. Para la preservación de árbol de carpetas use la API.

Sí — POST su audio a /v1/stt/transcribe/ con model="ElevenLabs STT". Devuelve JSON con texto + segmentos + marcas de tiempo a nivel de palabra. /api/ tiene la referencia completa.

Los modelos auto-anfitriones mantienen audio en nuestras GPUs; pase premium con un DPA. El audio se elimina después de la ventana compartida (24h anon, 7d signed-in). No entrenamos en sus entradas.

Sí — Free.ai otorga uso comercial de transcripciones. Necesita derechos sobre el audio que subió (su propia grabación, material licenciado o contenido con consentimiento).

El factor en tiempo real es aproximadamente 0,05–0,2× — un podcast de 60 minutos se transcribe en 3–12 minutos. Los modelos premium a menudo terminan más rápido. Utilice el botón de cola para cerrar la pestaña.

Love this tool? Share it!

Calificar esta página