Fal Speech-to-Text

Free.ai · stt · ~500 Torneiras por minute

Deixe um arquivo de áudio ou vídeo ou cole uma URL abaixo

~500 Torneiras por minute
Corre livre nas nossas GPUs. Actualização para Fal Speech-to-Text →

_ Encaminhado através de modelos externos — ~500 tokens por minuto (50% de marcagem sobre o custo a montante).

Utilizar através da API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
Documentação da API Obter a chave da API

Perguntas Frequentes

Fal Speech-to-Text transcribe áudio falado em texto. Envie um arquivo MP3, WAV, M4A ou vídeo e Fal Speech-to-Text devolve a transcrição completa mais legendas SRT/VTT opcionais com selos de tempo.

_

A taxa de erro de palavra é de 5 a 10% em áudio de inglês limpo, de 10 a 20% em áudio ruidoso ou acentuado. Grandes variantes da mesma arquitetura fazem significativamente melhor em casos rígidos — escolher mais grande quando o áudio é duro.

Sim — cada segmento inclui start/end times horários. Exportar como SRT ou VTT e o mapa de tempos diretamente no seu vídeo.

Fal Speech-to-Text é um motor de transcrição premium. Cerca de ~500–1.500 fichas por minuto de áudio. $1 = 750.000 fichas.

MP3, WAV, M4A, FLAC, OGG, mais vídeo (MP4, MOV, WebM) — extraimos o áudio. Máximo 500 MB por upload. Arquivos mais longos? Dividir com /audio/cut/ ou usar /v1/stt/batch /.

A diarização de falantes é um passe separado — commutar "diarizar" em /transcribe/. Fal Speech-to-Text manipula a transcrição; etiquetas de diarização cada segmento com Speaker 1 / Speaker 2 / etc.

Sim — /batch/ aceita uma pasta de arquivos de áudio. Cada transcrição terras em /account /?tab=história com o nome de arquivo original. Para a preservação de pasta-árvore use a API.

Sim — POST seu áudio para /v1/stt/transcribe/ com model="Fal Speech-to-Text". Devolve JSON com texto + segmentos + selos de tempo de nível de palavra. /api/ tem a referência completa.

Os modelos auto-hostados mantêm áudio em nosso GPUs; premium passa com um DPA. O áudio é excluído após o share-window (24h anon, 7d assinado). Nós não treinamos em seus insumos.

Sim — Free.ai concede o uso comercial de transcrições. Você precisa de direitos para o áudio que você enviou (o seu próprio registro, material licenciado ou conteúdo com consentimento).

O fator em tempo real é cerca de 0,05–0,2× — um podcast de 60 minutos transcribe em 3–12 minutos. Os modelos premium muitas vezes acabam mais rápido. Use o botão cola para fechar a aba.

Love this tool? Share it!

Avaliar esta página