Fal Speech-to-Text

Free.ai · stt · ~500 tokens por minute

Enviar o son

Solte un ficheiro de son ou vídeo, ou apegue un URL en baixo

~500 tokens por minute

Corre libremente nas nosas GPU. Actualizar para Fal Speech-to-Text →

Fal Speech-to-Text é a modelo de voz- a- texto. Enrutado a través de modelos externos — ~500 tokens por minuto (50% de markup sobre o custo ascendente).

Empregar a través da API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'

Documentación da API Obter a chave da API

Similar models

ElevenLabs STT

Wizper (Whisper v3)

Browse all models →

Preguntas frecuentes

Fal Speech-to-Text transcríbeo en texto. Envíe un ficheiro MP3, WAV, M4A ou vídeo e Fal Speech-to-Text devolve a transcrición completa máis os subtítulos SRT/VTT opcionais con marcas de data/hora.

Fal Speech-to-Text xestiona ducias de linguas — os modelos da familia Whisper cobren 90+, Parakeet cobre ~25, outros varían. Escolla « auto- detección » ou especifique a lingua para a maior precisión.

A taxa de erros de palabras é do 5- 10% en son inglés puro, do 10- 20% en son ruidoso ou acentuado. As variantes grandes da mesma arquitectura funcionan significativamente mellor en casos duros; escolla máis grandes cando o son é áspero.

Si, cada segmento inclúe marcas de tempo de inicio/ fin. Exporte como SRT ou VTT e os tempos serán mapeados directamente no vídeo.

Fal Speech-to-Text é un motor de transcrición premium. Cerca de ~500-1. 500 tokens por minuto de son. $1 = 750. 000 tokens.

MP3, WAV, M4A, FLAC, OGG, máis vídeo (MP4, MOV, WebM) — extraemos o son. Máximo 500 MB por envío. Ficheiros máis longos? Dividir con / audio/ cut/ ou usar / v1/ stt/ batch /.

A diarización do falante é unha pasada separada — conmute « diarize » en / transcribe /. Fal Speech-to-Text xestiona a transcrición; a diarización etiqueta cada segmento con Falante 1 / Falante 2 / etc.

Si — / batch / acepta un cartafol de ficheiros de son. Cada transcrición atópase en / account /? tab=history co nome de ficheiro orixinal. Para preservar a árbore de cartafoles use a API.

Si — POST o seu son a / v1/ stt/ transcribe / con model=" Fal Speech-to-Text ". Devolve JSON con texto + segmentos + marcas de tempo a nivel de palabra. / api / ten a referencia completa.

Os modelos auto- hospedados manteñen o son nas nosas GPU; os premium pasan a través dun DPA. O son é borrado despois da fiestra de compartición (24h anon, 7d de sesión). Non adestramos coas túas entradas.

Si, Free.ai concede o uso comercial das transcricións. Precisa dos dereitos do son que enviou (a súa propia gravación, material con licenza ou contido con permiso).

O factor de tempo real é aproximadamente 0, 05- 0, 2× — un podcast de 60 minutos transcríbese en 3- 12 minutos. Os modelos Premium adoitan rematar máis rápido. Use o botón de fila para pechar a lingüeta.

Fal Speech-to-Text

Empregar a través da API

Similar models

Preguntas frecuentes

Que fai Fal Speech-to-Text?

Cantos idiomas admite Fal Speech-to-Text?

Que tan preciso é Fal Speech-to-Text?

Fal Speech-to-Text inclúe marcas de tempo?

Canto custa Fal Speech-to-Text por minuto?

Que formatos de son podo enviar a Fal Speech-to-Text?

Pode Fal Speech-to-Text identificar diferentes falantes?

Podo facer transcricións por lotes con Fal Speech-to-Text?

Existe unha API para Fal Speech-to-Text?

Que pasa coa privacidade cando transcríbo con Fal Speech-to-Text?

É segura a saída de Fal Speech-to-Text para uso comercial?

Canto tempo tarda Fal Speech-to-Text?

Obteña 10. 000 fichas gratuítas

Agarde — Obteña 10K tokens gratuítos!

Queres máis?