ElevenLabs STT

Free.ai · stt · ~500 Token je minute

Audio hochladen

Eine Audio- oder Videodatei ablegen oder eine URL unten einfügen

~500 Token je minute

Lauft auf unseren GPUs frei. Aktualisierung für ElevenLabs STT →

_ Durch externe Modelle geleitet — ~{tpm__tokens} pro Minute (50% Markup gegenüber den vorgelagerten Kosten).

Verwendung über API

OpenAI-kompatible REST API. Generieren Sie einen Schlüssel und rufen Sie dieses Modell in Sekundenschnelle auf.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'

API-Dokumentation API-Schlüssel abrufen

Häufig gestellte Fragen

ElevenLabs STT transkribiert gesprochenes Audio in Text. Laden Sie eine MP3, WAV, M4A oder Videodatei hoch und ElevenLabs STT gibt das vollständige Transkript plus optionale SRT/VTT-Untertitel mit Zeitstempeln zurück.

ElevenLabs STT behandelt Dutzende von Sprachen — Whisper-Familienmodelle decken 90+, Parakeet umfasst ~25, andere variieren. Wählen Sie "auto-detect" oder geben Sie die Sprache für höchste Genauigkeit an.

Die Word-Error-Rate beträgt 5–10% bei sauberem Englisch-Audio, 10–20% bei lautem oder akzentuiertem Audio. Große Varianten derselben Architektur machen es bei harten Fällen sinnvoller – wählen Sie größer, wenn das Audio rau ist.

Ja — jedes Segment enthält Start/End-Zeitstempel. Exportieren Sie als SRT oder VTT und die Zeiten zeigen Sie direkt auf Ihr Video.

ElevenLabs STT ist eine Premium-Transkriptions-Engine. Etwa ~500–1.500 Token pro Minute Audio. $1 = 750.000 Token.

MP3, WAV, M4A, FLAC, OGG, plus Video (MP4, MOV, WebM) — wir extrahieren das Audio. Max. 500 MB pro Upload. Längere Dateien? Split mit /audio/cut/ oder verwenden /v1/stt/batch/.

Speakerdiarisierung ist ein separater Pass – schalte "diarize" auf /transcribe/ um. ElevenLabs STT handhabt die Transkription; diarization labels jedes Segment mit Speaker 1 / Speaker 2 / etc.

Ja — /batch/ akzeptiert einen Ordner von Audiodateien. Jedes Transkript landet in /account/?tab=history mit dem ursprünglichen Dateinamen. Für die Ordner-Baum-Konservierung verwenden Sie die API.

Ja — POST Ihr Audio auf /v1/stt/transcribe/ mit model="ElevenLabs STT". Gibt JSON mit Text + Segmente + Word-Level-Zeitstempel zurück. /api/ hat die vollständige Referenz.

Selbst gehostete Modelle halten Audio auf unseren GPUs; Premium-Durchlauf mit einem DPA. Audio wird nach dem Share-Fenster (24h anon, 7d angemeldet) gelöscht. Wir trainieren nicht auf Ihren Eingängen.

Ja — Free.ai gewährt kommerzielle Verwendung von Transkripten. Sie benötigen Rechte an dem Audio, das Sie hochgeladen haben (Ihre eigene Aufzeichnung, lizenziertes Material oder Inhalte mit Zustimmung).

Der Echtzeitfaktor beträgt etwa 0,05–0,2× — ein 60-minütiger Podcast, der in 3–12 Minuten transkribiert wird. Premium-Modelle enden oft schneller.

ElevenLabs STT

Verwendung über API

Ähnliche Modelle

Häufig gestellte Fragen

Was macht ElevenLabs STT?

Wie viele Sprachen unterstützt ElevenLabs STT?

Wie genau ist ElevenLabs STT?

Enthält ElevenLabs STT Zeitstempel?

Wie viel kostet ElevenLabs STT pro Minute?

Welche Audioformate kann ich auf ElevenLabs STT hochladen?

Kann ElevenLabs STT verschiedene Lautsprecher identifizieren?

Kann ich mit ElevenLabs STT charge transkribieren?

Gibt es eine API für ElevenLabs STT?

Was ist mit Privatsphäre, wenn ich mit ElevenLabs STT transkribiere?

Ist die Ausgabe ElevenLabs STT für den kommerziellen Gebrauch sicher?

Wie lange dauert ElevenLabs STT?

Erhalten Sie 10.000 kostenlose Token

Warten Sie — Holen Sie sich 10K kostenlose Token!

Willst du mehr?