faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 Token je minute

Eine Audio- oder Videodatei ablegen oder eine URL unten einfügen

~500 Token je minute

_ Am stärksten bei Accurate transcription. Selbstgehostet auf Free.ai GPUs — läuft kostenlos gegen Ihren täglichen Tokenpool ({tpm__tokens} pro Minute). Veröffentlicht unter MIT — kommerzielle Nutzung erlaubt auf Free.ai.

Verwendung über API

OpenAI-kompatible REST API. Generieren Sie einen Schlüssel und rufen Sie dieses Modell in Sekundenschnelle auf.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'
API-Dokumentation API-Schlüssel abrufen

Häufig gestellte Fragen

faster-whisper large-v3 transkribiert gesprochenes Audio in Text. Laden Sie eine MP3, WAV, M4A oder Videodatei hoch und faster-whisper large-v3 gibt das vollständige Transkript plus optionale SRT/VTT-Untertitel mit Zeitstempeln zurück.

faster-whisper large-v3 behandelt Dutzende von Sprachen — Whisper-Familienmodelle decken 90+, Parakeet umfasst ~25, andere variieren. Wählen Sie "auto-detect" oder geben Sie die Sprache für höchste Genauigkeit an.

Die Word-Error-Rate beträgt 5–10% bei sauberem Englisch-Audio, 10–20% bei lautem oder akzentuiertem Audio. Große Varianten derselben Architektur machen es bei harten Fällen sinnvoller – wählen Sie größer, wenn das Audio rau ist.

Ja — jedes Segment enthält Start/End-Zeitstempel. Exportieren Sie als SRT oder VTT und die Zeiten zeigen Sie direkt auf Ihr Video.

faster-whisper large-v3 läuft auf unseren eigenen GPUs gegen Ihren täglichen kostenlosen Pool zuerst; $5 → 200.000 bezahlte Token danach. Etwa ~500 Token pro Minute.

MP3, WAV, M4A, FLAC, OGG, plus Video (MP4, MOV, WebM) — wir extrahieren das Audio. Max. 500 MB pro Upload. Längere Dateien? Split mit /audio/cut/ oder verwenden /v1/stt/batch/.

Speakerdiarisierung ist ein separater Pass – schalte "diarize" auf /transcribe/ um. faster-whisper large-v3 handhabt die Transkription; diarization labels jedes Segment mit Speaker 1 / Speaker 2 / etc.

Ja — /batch/ akzeptiert einen Ordner von Audiodateien. Jedes Transkript landet in /account/?tab=history mit dem ursprünglichen Dateinamen. Für die Ordner-Baum-Konservierung verwenden Sie die API.

Ja — POST Ihr Audio auf /v1/stt/transcribe/ mit model="faster-whisper large-v3". Gibt JSON mit Text + Segmente + Word-Level-Zeitstempel zurück. /api/ hat die vollständige Referenz.

Selbst gehostete Modelle halten Audio auf unseren GPUs; Premium-Durchlauf mit einem DPA. Audio wird nach dem Share-Fenster (24h anon, 7d angemeldet) gelöscht. Wir trainieren nicht auf Ihren Eingängen.

Ja — Free.ai gewährt kommerzielle Verwendung von Transkripten. Sie benötigen Rechte an dem Audio, das Sie hochgeladen haben (Ihre eigene Aufzeichnung, lizenziertes Material oder Inhalte mit Zustimmung).

Der Echtzeitfaktor beträgt etwa 0,05–0,2× — ein 60-minütiger Podcast, der in 3–12 Minuten transkribiert wird. Premium-Modelle enden oft schneller.

Love this tool? Share it!

Bewerten Sie diese Seite