ElevenLabs STT

Free.ai · stt · ~500 Token je minute

Eine Audio- oder Videodatei ablegen oder eine URL unten einfügen

~500 Token je minute
Lauft auf unseren GPUs frei. Aktualisierung für ElevenLabs STT →

_ Durch externe Modelle geleitet — ~{tpm__tokens} pro Minute (50% Markup gegenüber den vorgelagerten Kosten).

Verwendung über API

OpenAI-kompatible REST API. Generieren Sie einen Schlüssel und rufen Sie dieses Modell in Sekundenschnelle auf.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
API-Dokumentation API-Schlüssel abrufen

Häufig gestellte Fragen

ElevenLabs STT transkribiert gesprochenes Audio in Text. Laden Sie eine MP3, WAV, M4A oder Videodatei hoch und ElevenLabs STT gibt das vollständige Transkript plus optionale SRT/VTT-Untertitel mit Zeitstempeln zurück.

ElevenLabs STT behandelt Dutzende von Sprachen — Whisper-Familienmodelle decken 90+, Parakeet umfasst ~25, andere variieren. Wählen Sie "auto-detect" oder geben Sie die Sprache für höchste Genauigkeit an.

Die Word-Error-Rate beträgt 5–10% bei sauberem Englisch-Audio, 10–20% bei lautem oder akzentuiertem Audio. Große Varianten derselben Architektur machen es bei harten Fällen sinnvoller – wählen Sie größer, wenn das Audio rau ist.

Ja — jedes Segment enthält Start/End-Zeitstempel. Exportieren Sie als SRT oder VTT und die Zeiten zeigen Sie direkt auf Ihr Video.

ElevenLabs STT ist eine Premium-Transkriptions-Engine. Etwa ~500–1.500 Token pro Minute Audio. $1 = 750.000 Token.

MP3, WAV, M4A, FLAC, OGG, plus Video (MP4, MOV, WebM) — wir extrahieren das Audio. Max. 500 MB pro Upload. Längere Dateien? Split mit /audio/cut/ oder verwenden /v1/stt/batch/.

Speakerdiarisierung ist ein separater Pass – schalte "diarize" auf /transcribe/ um. ElevenLabs STT handhabt die Transkription; diarization labels jedes Segment mit Speaker 1 / Speaker 2 / etc.

Ja — /batch/ akzeptiert einen Ordner von Audiodateien. Jedes Transkript landet in /account/?tab=history mit dem ursprünglichen Dateinamen. Für die Ordner-Baum-Konservierung verwenden Sie die API.

Ja — POST Ihr Audio auf /v1/stt/transcribe/ mit model="ElevenLabs STT". Gibt JSON mit Text + Segmente + Word-Level-Zeitstempel zurück. /api/ hat die vollständige Referenz.

Selbst gehostete Modelle halten Audio auf unseren GPUs; Premium-Durchlauf mit einem DPA. Audio wird nach dem Share-Fenster (24h anon, 7d angemeldet) gelöscht. Wir trainieren nicht auf Ihren Eingängen.

Ja — Free.ai gewährt kommerzielle Verwendung von Transkripten. Sie benötigen Rechte an dem Audio, das Sie hochgeladen haben (Ihre eigene Aufzeichnung, lizenziertes Material oder Inhalte mit Zustimmung).

Der Echtzeitfaktor beträgt etwa 0,05–0,2× — ein 60-minütiger Podcast, der in 3–12 Minuten transkribiert wird. Premium-Modelle enden oft schneller.

Love this tool? Share it!

Bewerten Sie diese Seite