ElevenLabs STT
Free.ai
·
stt
·
~500 ପ୍ରତି ଟୋକନଗୁଡ଼ିକ minute
ElevenLabs STT ହେଉଛି a ବାକ୍ୟରୁ ପାଠ୍ୟ ମଡେଲ। ବାହ୍ୟ ନମୂନା ମାଧ୍ୟମରେ ପଥପ୍ରଦର୍ଶନ କରାଯାଇଛି — ~500 ଟୋକନ ପ୍ରତି ମିନିଟ (ଉପଧାରା ଖର୍ଚ୍ଚ ଉପରେ 50% ମାର୍କଅପ)।
API ମାଧ୍ୟମରେ ବ୍ୟବହାର କରନ୍ତୁ
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
API ଦଲିଲିକରଣ
API କି ଗ୍ରହଣ କରନ୍ତୁ
ସାଧାରଣ ପ୍ରଶ୍ନ
ElevenLabs STT ପାଠ୍ୟରେ ବଚନ ଧ୍ୱନିକୁ ଅନୁବାଦ କରିଥାଏ। MP3, WAV, M4A, କିମ୍ବା ଭିଡିଓ ଫାଇଲକୁ ଅପଲୋଡ କରନ୍ତୁ ଏବଂ ElevenLabs STT ସମୟସୀମା ସହିତ ଇଚ୍ଛାରୂପୀ SRT/VTT ଉପଶୀର୍ଷକ ସହିତ ସମ୍ପୂର୍ଣ୍ଣ ଅନୁବାଦକୁ ଫେରାଇଥାଏ।
ElevenLabs STT ଦଶହରା ଭାଷାଗୁଡ଼ିକୁ ପରିଚାଳନା କରେ - Whisper-ପରିବାର ମଡେଲଗୁଡ଼ିକ 90+, Parakeet ~25, ଅନ୍ୟମାନେ ପରିବର୍ତ୍ତନ କରିଥାଏ। "ସ୍ୱୟଂ-ବିଷ୍ଣୁପାତ" ବାଛନ୍ତୁ କିମ୍ବା ସର୍ବାଧିକ ସଠିକତା ପାଇଁ ଭାଷାକୁ ନିର୍ଦ୍ଦିଷ୍ଟ କରନ୍ତୁ।
ଶବ୍ଦ-ତ୍ରୁଟି ହାର 5-10% ସ୍ୱଚ୍ଛ ଇଂରାଜୀ ଧ୍ୱନିରେ, 10-20% ଶବ୍ଦ-ଘଂଟା ଧ୍ୱନିରେ। ସମାନ ଢାଞ୍ଚାର ବଡ଼ ପ୍ରକାରଗୁଡିକ କଠିନ ମାମଲାରେ ଅଧିକ ଭଲ କାମ କରିଥାଏ - ଧ୍ୱନି କଠିନ ଥିବା ସମୟରେ ବଡ଼କୁ ବାଛନ୍ତୁ।
ହଁ — ପ୍ରତ୍ୟେକ ଅଂଶରେ ଆରମ୍ଭ/ସମପ୍ତି ସମୟସୀମା ଅନ୍ତର୍ଭୁକ୍ତ ଅଛି। SRT କିମ୍ବା VTT ଭାବରେ ରପ୍ତାନି କରନ୍ତୁ ଏବଂ ସମୟ ମାନଚିତ୍ରଟି ଆପଣଙ୍କର ଭିଡିଓରେ ସିଧାସଳଖ ଥାଏ।
ElevenLabs STT ଏକ ପ୍ରୀମିୟମ୍ ଅନୁବାଦ ଯନ୍ତ୍ର। ଧ୍ୱନିର ପ୍ରତି ମିନିଟରେ ~500–1,500 ଟୋକନ। $1 = 750,000 ଟୋକନ।
MP3, WAV, M4A, FLAC, OGG, ଏବଂ ଭିଡିଓ (MP4, MOV, WebM) — ଆମେ ଧ୍ୱନିକୁ କାଢ଼ିବା। ସର୍ବାଧିକ 500 MB ପ୍ରତି ଅପଲୋଡ। ଲମ୍ବା ଫାଇଲଗୁଡ଼ିକ? /audio/cut/ ସହିତ ବିଭାଜିତ କରନ୍ତୁ କିମ୍ବା /v1/stt/batch/କୁ ବ୍ୟବହାର କରନ୍ତୁ।
ବକ୍ତା ଡାଇରିକରଣ ଏକ ବିଚ୍ଛିନ୍ନ ପାସ - /transcribe/ ଉପରେ "diarize"କୁ ପରିବର୍ତ୍ତନ କରନ୍ତୁ। ElevenLabs STT ଅନୁବାଦକୁ ପରିଚାଳନା କରିଥାଏ; ବକ୍ତା 1 / ବକ୍ତା2/ ଇତ୍ୟାଦି ସହିତ ଡାଇରିକରଣ ପ୍ରତ୍ୟେକ ଅଂଶକୁ ସୂଚକ କରିଥାଏ।
ହଁ — /batch/ ଧ୍ୱନି ଫାଇଲଗୁଡ଼ିକର ଫୋଲଡରକୁ ଗ୍ରହଣ କରିଥାଏ। ପ୍ରତ୍ୟେକ ଅନୁବାଦ /account/?tab=history ରେ ପ୍ରାରମ୍ଭିକ ଫାଇଲନାମ ସହିତ ପହଞ୍ଚିଥାଏ। ଫୋଲଡର-ବୃକ୍ଷ ସଂରକ୍ଷଣ ପାଇଁ API କୁ ବ୍ୟବହାର କରନ୍ତୁ।
ହଁ — ଆପଣଙ୍କର ଧ୍ୱନିକୁ /v1/stt/transcribe/ ରେ POST କରନ୍ତୁ ମଡେଲ="ElevenLabs STT" ସହିତ। ପାଠ୍ୟ + ଅଂଶ + ଶବ୍ଦ-ସ୍ତର ସମୟସୀମା ସହିତ JSON ଫେରାଇଥାଏ। /api/ ରେ ସମ୍ପୂର୍ଣ୍ଣ ସଂଯୋଗ ଅଛି।
ସ୍ୱୟଂ-ହୋଷ୍ଟ ମଡେଲଗୁଡ଼ିକ ଆମର GPU ରେ ଧ୍ୱନିକୁ ରଖିଥାଏ; ପ୍ରିମିଆ DPA ସହିତ ଦ୍ବାରା ଗତି କରିଥାଏ। ଶବ୍ଦକୁ ଅଂଶଗ୍ରହଣ-ୱିଣ୍ଡୋ ପରେ ଅପସାରଣ କରାଯାଏ (24h ଅନନ, 7d ଲଗଇନ-ଇନ)। ଆମେ ଆପଣଙ୍କର ନିବେଶ ଉପରେ ପ୍ରଶିକ୍ଷଣ ଦେଇନଥାଉ।
ହଁ — Free.ai ଅନୁବାଦର ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ। ଆପଣ ଅଦ୍ୟତନ କରିଥିବା ଧ୍ୱନି ପାଇଁ ଆପଣଙ୍କୁ ଅଧିକାର ଆବଶ୍ୟକ (ଆପଣଙ୍କ ନିଜ ରେକର୍ଡ, ଲାଇସେନ୍ସିତ ବିଷୟବସ୍ତୁ, କିମ୍ବା ଅନୁମତି ସହିତ ବିଷୟବସ୍ତୁ)।
ପ୍ରକୃତ ସମୟ ଫଳକ ପାଖାପାଖି 0.05–0.2× - ଗୋଟିଏ 60-ମିନିଟ ପୋଡକାଷ୍ଟ3–12 ମିନିଟରେ ଅନୁବାଦ କରିଥାଏ। ପ୍ରୀମିୟମ ମଡେଲଗୁଡ଼ିକ ଅଧିକାଂଶ ସମୟରେ ଦ୍ରୁତ ଭାବରେ ସମାପ୍ତ ହୋଇଥାଏ। ଟ୍ୟାବକୁ ବନ୍ଦ କରିବା ପାଇଁ ଧାଡ଼ି ବଟନକୁ ବ୍ୟବହାର କରନ୍ତୁ।