Fal Speech-to-Text

Free.ai · stt · ~500 Token je minute

Audio hochladen

Eine Audio- oder Videodatei ablegen oder eine URL unten einfügen

~500 Token je minute

Lauft auf unseren GPUs frei. Aktualisierung für Fal Speech-to-Text →

_ Durch externe Modelle geleitet — ~{tpm__tokens} pro Minute (50% Markup gegenüber den vorgelagerten Kosten).

Verwendung über API

OpenAI-kompatible REST API. Generieren Sie einen Schlüssel und rufen Sie dieses Modell in Sekundenschnelle auf.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'

API-Dokumentation API-Schlüssel abrufen

Häufig gestellte Fragen

Fal Speech-to-Text transkribiert gesprochenes Audio in Text. Laden Sie eine MP3, WAV, M4A oder Videodatei hoch und Fal Speech-to-Text gibt das vollständige Transkript plus optionale SRT/VTT-Untertitel mit Zeitstempeln zurück.

Fal Speech-to-Text behandelt Dutzende von Sprachen — Whisper-Familienmodelle decken 90+, Parakeet umfasst ~25, andere variieren. Wählen Sie "auto-detect" oder geben Sie die Sprache für höchste Genauigkeit an.

Die Word-Error-Rate beträgt 5–10% bei sauberem Englisch-Audio, 10–20% bei lautem oder akzentuiertem Audio. Große Varianten derselben Architektur machen es bei harten Fällen sinnvoller – wählen Sie größer, wenn das Audio rau ist.

Ja — jedes Segment enthält Start/End-Zeitstempel. Exportieren Sie als SRT oder VTT und die Zeiten zeigen Sie direkt auf Ihr Video.

Fal Speech-to-Text ist eine Premium-Transkriptions-Engine. Etwa ~500–1.500 Token pro Minute Audio. $1 = 750.000 Token.

MP3, WAV, M4A, FLAC, OGG, plus Video (MP4, MOV, WebM) — wir extrahieren das Audio. Max. 500 MB pro Upload. Längere Dateien? Split mit /audio/cut/ oder verwenden /v1/stt/batch/.

Speakerdiarisierung ist ein separater Pass – schalte "diarize" auf /transcribe/ um. Fal Speech-to-Text handhabt die Transkription; diarization labels jedes Segment mit Speaker 1 / Speaker 2 / etc.

Ja — /batch/ akzeptiert einen Ordner von Audiodateien. Jedes Transkript landet in /account/?tab=history mit dem ursprünglichen Dateinamen. Für die Ordner-Baum-Konservierung verwenden Sie die API.

Ja — POST Ihr Audio auf /v1/stt/transcribe/ mit model="Fal Speech-to-Text". Gibt JSON mit Text + Segmente + Word-Level-Zeitstempel zurück. /api/ hat die vollständige Referenz.

Selbst gehostete Modelle halten Audio auf unseren GPUs; Premium-Durchlauf mit einem DPA. Audio wird nach dem Share-Fenster (24h anon, 7d angemeldet) gelöscht. Wir trainieren nicht auf Ihren Eingängen.

Ja — Free.ai gewährt kommerzielle Verwendung von Transkripten. Sie benötigen Rechte an dem Audio, das Sie hochgeladen haben (Ihre eigene Aufzeichnung, lizenziertes Material oder Inhalte mit Zustimmung).

Der Echtzeitfaktor beträgt etwa 0,05–0,2× — ein 60-minütiger Podcast, der in 3–12 Minuten transkribiert wird. Premium-Modelle enden oft schneller.

Fal Speech-to-Text

Verwendung über API

Ähnliche Modelle

Häufig gestellte Fragen

Was macht Fal Speech-to-Text?

Wie viele Sprachen unterstützt Fal Speech-to-Text?

Wie genau ist Fal Speech-to-Text?

Enthält Fal Speech-to-Text Zeitstempel?

Wie viel kostet Fal Speech-to-Text pro Minute?

Welche Audioformate kann ich auf Fal Speech-to-Text hochladen?

Kann Fal Speech-to-Text verschiedene Lautsprecher identifizieren?

Kann ich mit Fal Speech-to-Text charge transkribieren?

Gibt es eine API für Fal Speech-to-Text?

Was ist mit Privatsphäre, wenn ich mit Fal Speech-to-Text transkribiere?

Ist die Ausgabe Fal Speech-to-Text für den kommerziellen Gebrauch sicher?

Wie lange dauert Fal Speech-to-Text?

Erhalten Sie 10.000 kostenlose Token

Warten Sie — Holen Sie sich 10K kostenlose Token!

Willst du mehr?