ElevenLabs STT

Free.ai · stt · ~500 tokens për minute

Lësho një file audio apo video, ose ngjite një URL më poshtë

~500 tokens për minute
Shkon pa pagesë në GPU-të tona. Përmirëso për ElevenLabs STT →

ElevenLabs STT është a model nga-folja-në-tekst. Përcaktuar nëpërmjet modeleve të jashtme — ~500 tokens për minutë (50% markup mbi koston e fillimit).

Përdorimi nëpërmjet API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
Dokumentimi i API Merr kyçin e API

Pyetje të shpeshta

ElevenLabs STT transkripton audion e folur në tekst. Ngarko një file MP3, WAV, M4A ose video dhe ElevenLabs STT kthen transkriptimin e plotë plus subtitrat opcionalë SRT/VTT me shenjat e kohës.

ElevenLabs STT trajton dhjetra gjuhë — Whisper-familjet e modeleve mbulojnë 90%, Parakeet mbulon ~25, të tjerat ndryshojnë. Zgjidh "auto-detect" ose specifiko gjuhën për saktësi më të lartë.

Norma e gabimit të fjalëve është 5-10% në audion e pastër anglisht, 10-20% në audion me zhurmë ose me theks. Variantet e mëdha të të njëjtës arkitekturë bëjnë më mirë në raste të vështira - zgjedh më të mëdha kur audio është i papërpunuar.

Po — çdo segment përfshin një shtyllë kohe fillimi/fundi. Eksporto si SRT ose VTT dhe kohët do të shfaqen drejtpërsëdrejti në video.

ElevenLabs STT është një motor i transkriptimit premium. Rreth ~500-1,500 token për minutë audio. $1 = 750,000 token.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — nxjerrim audion. Maksimum 500 MB për ngarkim. File më të gjatë? Ndahet me /audio/cut/ ose përdor /v1/stt/batch/.

Diarizimi i folësit është një proces i veçantë — ndërroje "diarize" në /transcribe/. ElevenLabs STT trajton transkriptimin; diarization etiketon çdo segment me Folësi 1 / Folësi 2 / etj.

Po — /batch/ pranon një kartelë me file audio. Çdo transkriptim përfundon në /account/?tab=history me emrin origjinal të file. Për ruajtjen e degës së kartelës përdor API.

Po — POST audion tuaj në /v1/stt/transcribe/ me model="ElevenLabs STT". Kthen JSON me tekst + segmente + timestamp në nivel fjalësh. /api/ ka referencën e plotë.

Modelet e vetë-hostuar mbajnë audion në GPU-të tona; premium kalojnë nëpërmjet me një DPA. Audio eleminohet pas dritares së ndarjes (24 orë anonim, 7 ditë hyrje). Ne nuk trajnojmë në input-in tuaj.

Po — Free.ai lejon përdorimin komercial të transkriptave. Ju duhen të drejtat e audios që keni ngarkuar (inxhinieria juaj, material i licencuar, ose përmbajtje me leje).

Faktori i kohës reale është rreth 0.05-0.2× — një podcast 60-minutësh transkribohet në 3-12 minuta. Modelet Premium zakonisht përfundojnë më shpejt. Përdor butonin e renditjes për të mbyllur skedën.

Të pëlqen Free.ai?

Vlerësoni këtë faqe