Fal Speech-to-Text

Free.ai · stt · ~500 jetons par minute

Déposer un fichier audio ou vidéo, ou coller une URL ci-dessous

~500 jetons par minute
Exécute gratuitement sur nos GPU. Mise à jour pour Fal Speech-to-Text →

Fal Speech-to-Text est {articlemodèle de la parole au texte}. Tracé à travers des modèles externes — ~500 jetons par minute (portée de 50 % sur le coût en amont).

Utiliser via l'API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
Documentation de l'API Obtenir la clé API

Foire aux questions

Fal Speech-to-Text transcrit l'audio parlé en texte. Téléchargez un fichier MP3, WAV, M4A ou vidéo et Fal Speech-to-Text retourne la transcription complète ainsi que les sous-titres optionnels SRT/VTT avec horodatage.

Fal Speech-to-Text gère des dizaines de langues — Whisper-les modèles familiaux couvrent 90+, Parakeet couvre ~25, d'autres varient.

Le taux d'erreur de mot est de 5 à 10 % sur l'audio anglais propre, de 10 à 20 % sur l'audio bruyant ou accentué. Les grandes variantes de la même architecture font significativement mieux sur les cas durs — choisissez plus grand lorsque l'audio est rugueux.

Oui — chaque segment comprend des horodatages start/end. Exportez en tant que SRT ou VTT et la carte des heures directement sur votre vidéo.

Fal Speech-to-Text est un moteur de transcription premium. Environ ~500–1 500 jetons par minute d'audio. $1 = 750 000 jetons.

MP3, WAV, M4A, FLAC, OGG, plus vidéo (MP4, MOV, WebM) — nous extrayons l'audio. Max 500 MB par téléchargement. Fichiers plus longs? Split avec /audio/cut/ ou utilisez /v1/stt/batch/.

La diarisation des haut-parleurs est une passe séparée — basculer « diarize » sur /transcribe/. Fal Speech-to-Text gère la transcription; la diarisation étiquette chaque segment avec Speaker 1 / Speaker 2 / etc.

Oui — /batch/ accepte un dossier de fichiers audio. Chaque transcription se trouve dans /account/?tab=history avec le nom de fichier original. Pour la préservation des arbres de dossiers, utilisez l'API.

Oui — POST votre audio vers /v1/stt/transcribe/ avec model=Fal Speech-to-Text". Retourne JSON avec texte + segments + word-level timestamps. /api/ a la référence complète.

Les modèles auto-organisés gardent l'audio sur nos GPUs; la prime passe avec un DPA. L'audio est supprimé après la fenêtre de partage (24h anon, 7d signé-in). Nous ne formons pas sur vos entrées.

Oui — Free.ai accorde l'utilisation commerciale des transcriptions. Vous avez besoin de droits sur l'audio que vous avez téléchargé (votre propre enregistrement, matériel sous licence, ou contenu avec consentement).

Le facteur temps réel est d'environ 0,05–0,2× — un podcast de 60 minutes transcrit en 3–12 minutes. Les modèles Premium finissent souvent plus vite. Utilisez le bouton de queue pour fermer l'onglet.

Love this tool? Share it!

Noter cette page