Speech to Text

Uso comercial aceptado Máis de 380 modelos Sen marca de auga Non é preciso rexistrarse

Envíe un ficheiro de son ou vídeo — ou apegue un URL — e obteña unha transcrición limpa con marcas de tempo. Diarización de oradores, exportación de subtítulos SRT/VTT, máis de 100 idiomas con detección automática. O custo escala exactamente coa duración do clip. Xestionado por Whisper large-v3 e Parakeet (autoaloxado), ademais de Wizper premium e ElevenLabs STT.

Arrastre e solte son/vídeo ou prema para navegar

MP3, WAV, MP4, WebM, M4A - ata 500MB

Lingua

Motor Whisper large-v3 — 99 linguas, a mellor precisión da súa clase.

Formato de saída

Detección de altofalantes — etiqueta quen está a falar cando (+50% de fichas)

Número de altofalantes

YouTube, Instagram, TikTok, Spotify e máis de 1.300 plataformas

Motor

Formato de saída

Detección de altofalantes — +50%

O custo da transcrición do URL está baseado na duración real do clip — cotizamos despois da descarga. Espere ~500 tokens/ minuto en Whisper.

Transcrición en tempo real usando o micrófono

O que a xente transcribe con Free.ai

Entrevistas + podcasts

A diarización etiqueta cada falante. Exporte SRT directamente ao seu editor de vídeo, ou texto simple para escribir un artigo.

Títulos automáticos + subtítulos

Envíe un vídeo de YouTube ou TikTok, escolla SRT ou WebVTT e grave os subtítulos en /video/subtitle/. Fluxo de traballo de subtítulos completo.

Notas da reunión

Upload a Zoom/Teams recording — get transcript + speaker labels. Pair with /write/summarize/ for bullet-point minutes.

Leccións

Transcríbe unha conferencia de 90 minutos e logo usa /study/flashcards/ ou /write/summarize/ para convertela en material de estudo.

Son en lingua estranxeira

Whisper detecta automaticamente 99 linguas. Transcríbeo no orixinal e despois envía o texto a través de /translate/ para saltar as linguas.

Legal + médico

Marcas de tempo, etiquetas de oradores, exportación a JSON con hora de comezo/fin de cada palabra: preparación precisa para reporteiros de tribunais ou notas clínicas.

Como se compara a transcrición Free.ai

O que obtén	Free.ai	Otter.ai	Descript	Rev.com
Uso diario libre	5K+ tokens/day	300 minutes/mo	1 hr/month	—
Motor	Whisper large-v3, Parakeet	Proprietary	Proprietary	Human + AI
Linguas	99	English-focused	22	30+
Diarización do falante
Exportación de SRT / VTT		Paid	Paid
API pública		Limited	Limited
Transmisión en directo STT	(libre)	Paid	—	—
Requírese rexistro	Non	Yes	Yes	Yes

As cifras dos competidores reflicten os niveis libres listados publicamente a partir de 2026. Comprobe cada provedor para os plans actuais.

Best free speech to text tool. Upload MP3, WAV, MP4 or record live. Auto-detect language. Speaker diarization. No sign up required.

Como usar Speech to Text

Introduza a súa entrada

Escriba texto, envíe un ficheiro ou describa o que queira. Non se precisa conta.

Prema para xerar

A nosa IA procesa a túa solicitude en segundos empregando os mellores modelos de código aberto.

Obter e compartir

Obteña, copie ou comparta o seu resultado. Gratuito para uso persoal e comercial.

Empregar esta ferramenta mediante API

Automatice esta ferramenta a partir do seu propio código. Punto final REST compatíbel con OpenAI, autenticación por token de portador, non se require SDK adicional. Os custos dos tokens son iguais aos da interface web.

Documentación da API Obter a chave da API

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"file": "@audio.mp3", "language": "auto"}'

Speech to Text — FAQ

Free.ai ofrece voz a texto con Whisper con excelente precisión, 99 idiomas, exportación de subtítulos, detección de falantes e captura de micrófono en directo - completamente gratis.

Envíe un ficheiro de son ou vídeo (MP3, WAV, MP4, M4A), prema en Transcribir e obterá unha transcrición precisa en segundos. Ou grave en directo co seu micrófono.

Si. Apegue calquera URL de YouTube na pestana URL e a ferramenta de voz a texto extraerá o son e converterao. Funciona con Instagram, TikTok, Spotify e máis de 1.300 plataformas.

Si. Detectar ou escoller automaticamente entre 99 linguas. O noso conversor de voz a texto xestiona ben os acentos, o ruído de fondo e o son de linguas mesturadas.

Si. Escolla varios ficheiros de son á vez. Cada un envíase mediante voz a texto con seguimento do progreso e os resultados poden descargarse por separado ou combinados.

Si. A API de voz a texto en / api / é compatíbel con OpenAI. Envíe o son por programación e reciba JSON coa transcrición, linguaxe e marcas de data/ hora.

Si. Conmute a Detección de falantes antes de enviar e a saída de voz a texto será etiquetada por falante (Falante 1, Falante 2...). Engade un 50% ao custo do token.

A conversión de voz a texto acepta ficheiros de ata 500 MB por envío. Para contidos de varias horas, divida primeiro o son en anacos.

Moi preciso para un son claro, normalmente máis do 95% de precisión de palabras en inglés coa nosa infraestrutura Whisper large- v3. A calidade depende da claridade do son, do acento e do ruído de fondo.

Si. A transcrición é totalmente editábel no lugar. Corrixa erros, reformate e copie/ descargue como TXT, SRT ou VTT.

Si. O son é procesado nas nosas propias GPU e borrado despois de que remate a conversión de voz a texto. Non se garda nada a longo prazo, non se comparte nada nin se usa para adestramento.

Si. Envíe un ficheiro de son ou vídeo a / chat / e pídalle á IA que o transcriba - combine a voz co texto con preguntas de seguimento e resumo nun só fluxo de traballo.

Inscríbete gratis para obter 30.000 tokens

Crear unha conta libre

Non se require tarxeta de crédito

Como valora esta ferramenta?

Speech to Text

O que a xente transcribe con Free.ai

Entrevistas + podcasts

Títulos automáticos + subtítulos

Notas da reunión

Leccións

Son en lingua estranxeira

Legal + médico

Como se compara a transcrición Free.ai

Resultado

Como usar Speech to Text

Introduza a súa entrada

Prema para xerar

Obter e compartir

Empregar esta ferramenta mediante API

Speech to Text — FAQ

Cal é a mellor ferramenta de tradución libre de voz a texto?

Como podo converter a voz en texto en liña?

Pode a conversión de voz en texto xestionar vídeos de YouTube?

Funciona a conversión de voz a texto noutras linguas?

Podo enviar varios ficheiros para a conversión de voz a texto?

Existe unha API de voz a texto?

A conversión de voz a texto admite etiquetas de locutor?

Que tamaño de ficheiro de son acepta a conversión de voz en texto?

Que tan precisa é a saída de voz a texto?

Podo editar a transcrición do discurso en texto?

A conversión de voz a texto é privada e segura?

Podo usar a voz para escribir no chat de IA?

Obteña 10. 000 fichas gratuítas

Agarde — Obteña 10K tokens gratuítos!

Queres máis?