Kann ich SRT-Untertitel für meinen Video-Podcast bekommen?

Ja — wählen Sie SRT oder WebVTT als Ausgabeformat. Lautsprecheretiketten sind inline (SRT) oder als -Tags (VTT) enthalten, die die meisten modernen Player korrekt wiedergeben.

Rede zum Text Live-Transkription YouTube-Transkription Transkription treffen Transkription vergrößern Audio zu Text Video zu Text Telefonanruf-Transkription Mehr →

Podcast-Transkription

Kommerzielle Nutzung OK 380+ Modelle Kein Wasserzeichen Keine Anmeldung erforderlich

Laden Sie eine Podcast-Episode hoch und erhalten Sie ein sauberes, redaktionell markiertes Transkript mit automatisch erkannten Kapitelmarkern aus Stillelücken. Langformdateien bis zu 2GB, 99 Sprachen, Whisper-large-v3 Genauigkeit. Exportieren Sie als SRT/VTT für Ihren Video-Podcast, einfache TXT für Show Notes oder JSON für die Bearbeitung in Descript-Style-Workflows.

Ziehen Sie und legen Sie Ihre Podcast-Episode, oder klicken Sie zum Durchsuchen

MP3, WAV, M4A, OGG, MP4 — Langzeit-Episoden bis zu 2 GB

Sprache

Motor

Ausgabeformat

Label-Lautsprecher (Gast / Gastgeber) — label wer spricht, wenn (+50% Token)

Anzahl der Redner:

Automatische Kapitel-Marker — Stille Lücken >2s

Kapitel-Marker werden clientseitig aus Segmentlücken berechnet und an das Transkript angehängt. Fügen Sie sie in YouTube oder Spotify-Beschreibungen als-is ein.

Gebaut für Podcaster + Show-Editoren

Noten in einer Paste anzeigen

Laden Sie die Folge hoch, laden Sie die TXT herunter. Lautsprecheretiketten inline, Kapitel-Zeitstempel bereit für Ihre Spotify/YouTube Beschreibung, Blog-Post geschrieben in 10 Minuten statt 4 Stunden.

Video-Podcast-Untertitel

Exportieren Sie SRT oder WebVTT mit Lautsprecheretiketten. Fallen Sie direkt in Premiere, Final Cut oder DaVinci Resolve — oder laden Sie neben Ihrem YouTube-Video für saubere Bildunterschriften hoch.

Textbasierte Episodenbearbeitung

JSON Export gibt Ihnen jedes Wort mit Start/End-Zeitstempeln. Pipe in Descript, Reaper oder einen benutzerdefinierten Workflow – Bearbeiten durch Hervorheben von Text statt Scrubbing.

Wie Podcast-Transkription funktioniert

Ziehen Sie Ihre Episode auf die Drop-Zone — MP3, WAV, M4A, MP4, bis zu 2GB.
Lassen Sie Lautsprecher-Etiketten und Kapitel-Marker an (sie sind die Voreinstellungen). Wählen Sie Ihr Ausgabeformat.
Wir überprüfen die Dauer + Preis, bevor Sie irgendwelche Token ausgeben. Klicken Sie auf Transcribe.
Laden Sie Lautsprecher-beschriftete TXT, SRT, VTT oder JSON. Kapitel Marker Schiff neben, bereit zu einfügen.

Free.ai Podcast-Transkription vs. Descript, Riverside, Otter

Funktion	Free.ai	Descript	Riverside	Otter.ai
Preis	Pay-per-use ($0.003/min)	$15-30/mo	$19/mo	$16.99/mo
Maximale Dateigröße	2 GB	5 GB	Tied to record session	500 MB (varies)
Wahl des Sprechers
Automatische Kapitel-Marker	(Schweigen-basiert)	Manual	—	Paid tier
Ausfuhr von SRT/VTT				Paid
Sprachen	99	22	100+	English-focused
Öffentliche API		—	—	Limited

Die Preisgestaltung des Wettbewerbers spiegelt die öffentlich notierten Stufen im Jahr 2026 wider. Prüfen Sie jeden Anbieter auf aktuelle Pläne.

Transcribe Podcasts mit KI kostenlos zu texten.

Verwendung Podcast-Transkription

Geben Sie Ihre Eingabe ein

Geben Sie Text ein, laden Sie eine Datei hoch oder beschreiben Sie, was Sie wollen.

Klicken Sie auf Generieren

Unsere KI verarbeitet Ihre Anfrage in Sekundenschnelle mit den besten Open-Source-Modellen.

Herunterladen & Teilen

Downloaden, kopieren oder teilen Sie Ihr Ergebnis. Kostenlos für den persönlichen und kommerziellen Gebrauch.

Verwenden Sie dieses Tool über API

Automatisieren Sie dieses Tool aus Ihrem eigenen Code. OpenAI-kompatible REST-Endpunkt, Bearer-Token-Auth, kein zusätzliches SDK erforderlich. Tokenkosten entsprechen der Web-Schnittstelle.

API-Dokumentation API-Schlüssel abrufen

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"file": "@audio.mp3", "language": "auto"}'

Podcast-Transkription — FAQ

Das Podcast-Tool ist standardmäßig auf Lautsprecherdiarisierung und Kapitelmarker (Schweigen-Gap-Detektion >2s) eingestellt und unterstützt Langzeitdateien bis zu 2GB. Ausgabeformate umfassen SRT + VTT für Show-Notes-Videoclips, schlichte TXT für Blog-Posts und strukturierte JSON mit Per-Turn-Timestamps + Lautsprecherlabels zur Bearbeitung in Descript-Style-Workflows.

Bis zu 2 GB pro Datei – etwa ein 14-stündiger Audio-Podcast bei 128 kbps MP3. Lange Dateien sind serverseitig für die Widerstandsfähigkeit gelocht; Sie erhalten ein einzelnes zusammengeführtes Transkript zurück.

Ja. Die Lautsprecherdiarisierung ist standardmäßig ON. Wir erkennen 2-10 verschiedene Stimmen über ECAPA-Stimmeeinbettungen, beschriften sie Lautsprecher 1 / 2 /... und wenden die Etiketten auf jedes Segment an. Sie können sie in der Ergebnisansicht umbenennen.

Stille Lücken länger als 2 Sekunden – die natürlichen Pausen Podcaster verwenden zwischen Segmenten. Jedes Kapitel erhält einen Zeitstempel, den Sie direkt in Ihre Show-Noten mit einem "Kapitel:"-Block für YouTube + Spotify einfügen können.

Descript kostet $15-$30 pro Monat für 10 Stunden Transkription, gebunden an ihren Editor. Wir berechnen pro-use bei ~500 tokens/min auf Whisper ($5 = 200K tokens = ~400 Minuten), kein Abonnement, einfache Export können Sie überall einfügen.

Riverside ist ein Aufnahmestudio, das Ihre eigenen Sessions kostenlos in ihrer App transkribiert, aber nur nach der Aufnahme mit ihnen. Wir transkribieren alle MP3/WAV/MP4 unabhängig davon, wo es aufgenommen wurde.

Otter Caps bei 300 Minuten/Monat auf der freien Ebene und ist englisch-fokussiert. Wir unterstützen 99 Sprachen bei der gleichen Whisper-large-v3 Genauigkeit ohne monatliche Kappe - Sie zahlen pro Minute transkribiert.

Ja — wählen Sie SRT oder WebVTT als Ausgabeformat. Lautsprecheretiketten sind inline (SRT) oder als <v Speaker N>-Tags (VTT) enthalten, die die meisten modernen Player korrekt wiedergeben.

Whisper-large-v3 behandelt Musikbetten und leichtes Reverb gut (typische Wort-Fehler-Rate 3-7%). Sehr laute Musik oder schwere Überlappung mindert die Genauigkeit — betrachten Sie laufen /music/vocal-remover/ zuerst auf einer Kopie, oder teilen Sie Ihre Kälte öffnet.

Whisper behandelt die häufigsten Namen, aber höchst markenspezifische Jargon kann einen Post-Edit-Pass benötigen. Eine ~30-Minuten-Episode hat typischerweise 5-10 Marken-/Namenskorrekturen, um manuell anzuwenden.

Laden Sie sie einzeln hier hoch, oder nutzen Sie unsere /batch/-Funktion, die einmal angemeldet ist, um eine Saison anzustehen. Die API unter /api/ akzeptiert auch POST /v1/stt/ zum programmatischen Batching.

Nein. Hochgeladene Dateien werden gelöscht, nachdem die Transkription abgeschlossen ist. Ihr Transkript befindet sich in Ihrem /account/history zum Download, wenn angemeldet; anonyme Benutzer erhalten einen 24-Stunden-Share-Link.

Melde dich kostenlos an für 30.000 Token

Kostenloses Konto erstellen

Keine Kreditkarte erforderlich

Wie würden Sie dieses Tool bewerten?

Podcast-Transkription

Gebaut für Podcaster + Show-Editoren

Noten in einer Paste anzeigen

Video-Podcast-Untertitel

Textbasierte Episodenbearbeitung

Wie Podcast-Transkription funktioniert

Free.ai Podcast-Transkription vs. Descript, Riverside, Otter

Ergebnis

Verwendung Podcast-Transkription

Geben Sie Ihre Eingabe ein

Klicken Sie auf Generieren

Herunterladen & Teilen

Verwenden Sie dieses Tool über API

Verwandte kostenlose KI-Tools

Podcast-Transkription — FAQ

Wie unterscheidet sich Podcast-Transkription vom generischen Werkzeug?

Was ist der längste Podcast, den man transkribieren kann?

Beschriften Sie Lautsprecher automatisch?

Worauf basieren Kapitelmarkierungen?

Wie steht das mit Descript?

Wie steht das mit Riverside?

Wie steht das mit Otter.ai?

Kann ich SRT-Untertitel für meinen Video-Podcast bekommen?

Welche Genauigkeit sollte ich auf Podcasts mit Musikbetten erwarten?

Erkennt es Markenbegriffe und Gästenamen?

Kann ich mehrere Episoden gleichzeitig verarbeiten?

Wird mein Audio nach der Transkription gespeichert?

Erhalten Sie 10.000 kostenlose Token

Warten Sie — Holen Sie sich 10K kostenlose Token!

Willst du mehr?