ElevenLabs STT

Free.ai · stt · ~500 simboliai minute

Numeskite garso ar vaizdo failą arba įklijuokite URL žemiau

~500 simboliai minute
Bėgam nemokamai prie mūsų GPU. Atnaujinti ElevenLabs STT →

ElevenLabs STT is a kalbinis modelis. Maršrutizuojama per išorinius modelius — ~{tpm_markes} per minutę(50 % žymėjimas ant pradinės kainos).

Naudoti per API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
API dokumentacija Gauti API raktą

Dažnai užduodami klausimai

ElevenLabs STT transcribes spoken audio into text. Upload an MP3, WAV, M4A, or video file and ElevenLabs STT returns the full transcript plus optional SRT/VTT subtitles with timestamps.

ElevenLabs STT hacks dešimtys kalbų — Whisper-šeimos modeliai apima 90+, Parakeet cover ~25, kiti skiriasi. Pasirinkite "auto-definiciją" arba nurodyti kalbą, kad būtų pasiektas didžiausias tikslumas.

Žodžių klaidų lygis yra 5-10% ant švaraus anglų garso, 10-20% triukšmingas ar akcentuotas garso. Dideli tos pačios architektūros variantai prasmingai geriau kietais atvejais — pasirinkti didesnį, kai garso yra grubus.

Taip — kiekvienas segmentas apima pradžios ir (arba) pabaigos žymes. Eksportuoti kaip SRT arba VTT ir laikas žemėlapis tiesiai į savo vaizdo įrašą.

ElevenLabs STT yra premium transkripcijos variklis. Apie ~500-1 500 žetonų per minutę garso. $1 = 750.000 žetonų.

MP3, WAV, M4A, FLAC, OGG, plius video (MP4, MOV, WebM) — mes ištraukiame garsą. Maks. 500 MB už įkeltą. Ilgesni failai? Split with /audio/cut/ or use /v1/stt/partch/.

Garsiakalbio diarizacija yra atskiras leidimas — perjungti "dializuoti" į / transkripcija/. ElevenLabs STT tvarko transkripciją; Dializės etiketes kiekviename segmente su Garsiakalbis 1 / Garsiakalbis 2 / ir tt

Taip — /partch/ priima aplanką garso failų. Kiekvienas stenogramos failas / paskyra /?tab=istorija su originalu failo pavadinimu. Aplanko išsaugojimui naudoti API.

Yes — POST your audio to /v1/stt/transcribe/ with model="ElevenLabs STT". Returns JSON with text + segments + word-level timestamps. /api/ has the full reference.

Savarankiški modeliai išlaikyti garso mūsų GPU; premium perduoti per su DPA. Audio yra ištrintas po akcijų-window (24h anon, 7d prisijungė). Mes ne mokyti jūsų įvesties.

Taip — Free.ai suteikia komercinį transkriptų naudojimą. Jums reikia teisių įkeltą garsą (savo įrašymo, licencijuotos medžiagos ar turinio su sutikimu).

Realaus laiko faktorius yra maždaug 0,05-0,2× – 60 minučių podcast transliuojamas per 3–12 minučių. Pirminiai modeliai dažnai baigiasi greičiau. Norėdami uždaryti kortelę, naudokite eilės mygtuką.

Like this tool? Share it!

Įvertinti šį puslapį