ElevenLabs STT
Free.ai
·
stt
·
~500 fitxes per minute
ElevenLabs STT és a Model de text a text. Camí a través de models externs kdeaccessibility ~500 fitxes per minut (50% marcat per sobre del cost superior).
Ús mitjançant l' API
L' API OpenAI compatible amb l' OpenAI. Genera una clau i l' anomenen en segons.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
Documentació de l' API
Obtén la clau de l' API
Preguntes més freqüents
FEMEAI_ PH_ nom_ transcrivideix l' àudio al text. Carrega un fitxer MP3, WAV, M4A, o MacFREEA_ PH_ nom_ PH_ retorna la transcripció completa més opcionals SRT/ VT subtítols amb marques horàries.
ElevenLabs STT handles dozens of languages — Whisper-family models cover 90+, Parakeet covers ~25, others vary. Pick "auto-detect" or specify the language for highest accuracy.
La taxa de Word- error és 5105% sobre l' àudio anglès net, 10 dígits20% sobre àudio sorollós o accentuat. Les grans variants de la mateixa arquitectura fan molt millor amb casos difícils identificadors quan l' àudio és dur.
Sí Regina tots els segments inclou marques de temps d' inici/ final. Exporta com SRT o VT i les hores del mapa directament al vostre vídeo.
FEMEAI_ PH_ name_ és un motor d' hipercripcions. Quant a ~5001500 fitxes per minut d' àudio. 150 = 750.000 fitxes.
MP3, WAV, M4A, FLAC, OGGG, més vídeo (MP4, MOV, WebM) we extrajectem l' àudio. Max 500 MB per pujada. Els fitxers Longer? Divideix amb / audio/cut / o useu /v1t/ batch /.
Speaker diarization is a separate pass — toggle "diarize" on /transcribe/. ElevenLabs STT handles the transcription; diarization labels each segment with Speaker 1 / Speaker 2 / etc.
Sí, eka / batch/ accepta una carpeta de fitxers d' àudio. Cada entrada de la transcripció en / compte /? tab=hi història amb el nom del fitxer original. Per a la preservació de carpetes usa l' API.
Sí Irene PPOST de l' àudio a / v1t/ trancrib / amb model="ElevenLabs STT ___ ". Retorna JSON amb text + segments + línies de temps de nivell. / api/ té la referència completa.
Els models auto-ordinadors mantenen l'àudio a les nostres GPU; el més alt passa amb un DPA. Audio s' esborra després de la finestra de compartició (24h anon, 7d signat-in). No entren en les vostres entrades.
Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).
El factor d' hora real és aproximadament 0, 05- 020. 2× 2001- 02 un podcast de 60 minuts transcrideix en 3 dígits12 minuts. Els models Premium sovint acaben més ràpid. Useu el botó de cua per tancar la pestanya.