Fal Speech-to-Text
Free.ai
·
stt
·
~500 Token je minute
_ Durch externe Modelle geleitet — ~{tpm__tokens} pro Minute (50% Markup gegenüber den vorgelagerten Kosten).
Verwendung über API
OpenAI-kompatible REST API. Generieren Sie einen Schlüssel und rufen Sie dieses Modell in Sekundenschnelle auf.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API-Dokumentation
API-Schlüssel abrufen
Häufig gestellte Fragen
Fal Speech-to-Text transkribiert gesprochenes Audio in Text. Laden Sie eine MP3, WAV, M4A oder Videodatei hoch und Fal Speech-to-Text gibt das vollständige Transkript plus optionale SRT/VTT-Untertitel mit Zeitstempeln zurück.
Fal Speech-to-Text behandelt Dutzende von Sprachen — Whisper-Familienmodelle decken 90+, Parakeet umfasst ~25, andere variieren. Wählen Sie "auto-detect" oder geben Sie die Sprache für höchste Genauigkeit an.
Die Word-Error-Rate beträgt 5–10% bei sauberem Englisch-Audio, 10–20% bei lautem oder akzentuiertem Audio. Große Varianten derselben Architektur machen es bei harten Fällen sinnvoller – wählen Sie größer, wenn das Audio rau ist.
Ja — jedes Segment enthält Start/End-Zeitstempel. Exportieren Sie als SRT oder VTT und die Zeiten zeigen Sie direkt auf Ihr Video.
Fal Speech-to-Text ist eine Premium-Transkriptions-Engine. Etwa ~500–1.500 Token pro Minute Audio. $1 = 750.000 Token.
MP3, WAV, M4A, FLAC, OGG, plus Video (MP4, MOV, WebM) — wir extrahieren das Audio. Max. 500 MB pro Upload. Längere Dateien? Split mit /audio/cut/ oder verwenden /v1/stt/batch/.
Speakerdiarisierung ist ein separater Pass – schalte "diarize" auf /transcribe/ um. Fal Speech-to-Text handhabt die Transkription; diarization labels jedes Segment mit Speaker 1 / Speaker 2 / etc.
Ja — /batch/ akzeptiert einen Ordner von Audiodateien. Jedes Transkript landet in /account/?tab=history mit dem ursprünglichen Dateinamen. Für die Ordner-Baum-Konservierung verwenden Sie die API.
Ja — POST Ihr Audio auf /v1/stt/transcribe/ mit model="Fal Speech-to-Text". Gibt JSON mit Text + Segmente + Word-Level-Zeitstempel zurück. /api/ hat die vollständige Referenz.
Selbst gehostete Modelle halten Audio auf unseren GPUs; Premium-Durchlauf mit einem DPA. Audio wird nach dem Share-Fenster (24h anon, 7d angemeldet) gelöscht. Wir trainieren nicht auf Ihren Eingängen.
Ja — Free.ai gewährt kommerzielle Verwendung von Transkripten. Sie benötigen Rechte an dem Audio, das Sie hochgeladen haben (Ihre eigene Aufzeichnung, lizenziertes Material oder Inhalte mit Zustimmung).
Der Echtzeitfaktor beträgt etwa 0,05–0,2× — ein 60-minütiger Podcast, der in 3–12 Minuten transkribiert wird. Premium-Modelle enden oft schneller.