faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 ପ୍ରତି ଟୋକନଗୁଡ଼ିକ minute

ଧ୍ୱନି କିମ୍ବା ଭିଡିଓ ଫାଇଲକୁ ପକାନ୍ତୁ, କିମ୍ବା URL କୁ ନିମ୍ନରେ ଲଗାନ୍ତୁ

~500 ପ୍ରତି ଟୋକନଗୁଡ଼ିକ minute

faster-whisper large-v3 ହେଉଛି a ବାକ୍ୟରୁ ପାଠ୍ୟ ମଡେଲ ଯାହାକି OpenAI / SYSTRAN ଦ୍ୱାରା ନିର୍ମିତ। Accurate transcription ରେ ସବୁଠାରୁ ଶକ୍ତିଶାଳୀ । Free.ai GPUs ଉପରେ ସ୍ୱୟଂ-ହୋଷ୍ଟ — ଆପଣଙ୍କର ଦୈନିକ ଟୋକନ ପୁଲ (500 ଟୋକନ ପ୍ରତି ମିନିଟ) ବିରୋଧରେ ମୁକ୍ତ ଭାବରେ ଚାଲୁଛି। MIT ଅନ୍ତର୍ଗତ ମୁକ୍ତ କରାଯାଇଛି — ବାଣିଜ୍ୟିକ ବ୍ୟବହାର ପାଇଁ ଅନୁମତି Free.ai ରେ ।

API ମାଧ୍ୟମରେ ବ୍ୟବହାର କରନ୍ତୁ

OpenAI-ସଂଗତି REST API. ଗୋଟିଏ କି ସୃଷ୍ଟି କରନ୍ତୁ ଏବଂ ସେକଣ୍ଡଗୁଡ଼ିକରେ ଏହି ନମୂନାକୁ ଡକାନ୍ତୁ।

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'
API ଦଲିଲିକରଣ API କି ଗ୍ରହଣ କରନ୍ତୁ

ସାଧାରଣ ପ୍ରଶ୍ନ

faster-whisper large-v3 ପାଠ୍ୟରେ ବଚନ ଧ୍ୱନିକୁ ଅନୁବାଦ କରିଥାଏ। MP3, WAV, M4A, କିମ୍ବା ଭିଡିଓ ଫାଇଲକୁ ଅପଲୋଡ କରନ୍ତୁ ଏବଂ faster-whisper large-v3 ସମୟସୀମା ସହିତ ଇଚ୍ଛାରୂପୀ SRT/VTT ଉପଶୀର୍ଷକ ସହିତ ସମ୍ପୂର୍ଣ୍ଣ ଅନୁବାଦକୁ ଫେରାଇଥାଏ।

faster-whisper large-v3 ଦଶହରା ଭାଷାଗୁଡ଼ିକୁ ପରିଚାଳନା କରେ - Whisper-ପରିବାର ମଡେଲଗୁଡ଼ିକ 90+, Parakeet ~25, ଅନ୍ୟମାନେ ପରିବର୍ତ୍ତନ କରିଥାଏ। "ସ୍ୱୟଂ-ବିଷ୍ଣୁପାତ" ବାଛନ୍ତୁ କିମ୍ବା ସର୍ବାଧିକ ସଠିକତା ପାଇଁ ଭାଷାକୁ ନିର୍ଦ୍ଦିଷ୍ଟ କରନ୍ତୁ।

ଶବ୍ଦ-ତ୍ରୁଟି ହାର 5-10% ସ୍ୱଚ୍ଛ ଇଂରାଜୀ ଧ୍ୱନିରେ, 10-20% ଶବ୍ଦ-ଘଂଟା ଧ୍ୱନିରେ। ସମାନ ଢାଞ୍ଚାର ବଡ଼ ପ୍ରକାରଗୁଡିକ କଠିନ ମାମଲାରେ ଅଧିକ ଭଲ କାମ କରିଥାଏ - ଧ୍ୱନି କଠିନ ଥିବା ସମୟରେ ବଡ଼କୁ ବାଛନ୍ତୁ।

ହଁ — ପ୍ରତ୍ୟେକ ଅଂଶରେ ଆରମ୍ଭ/ସମପ୍ତି ସମୟସୀମା ଅନ୍ତର୍ଭୁକ୍ତ ଅଛି। SRT କିମ୍ବା VTT ଭାବରେ ରପ୍ତାନି କରନ୍ତୁ ଏବଂ ସମୟ ମାନଚିତ୍ରଟି ଆପଣଙ୍କର ଭିଡିଓରେ ସିଧାସଳଖ ଥାଏ।

faster-whisper large-v3 ଆମର ନିଜ GPUs ଉପରେ ଆପଣଙ୍କର ଦୈନିକ ମୁକ୍ତ ପୁଲ ବିରୋଧରେ ପ୍ରଥମେ ଚଲାଇଥାଏ; $5 → 200,000 ପୈଠିତ ଟୋକନ ପରେ। ପ୍ରତି ମିନିଟରେ ~500 ଟୋକନ।

MP3, WAV, M4A, FLAC, OGG, ଏବଂ ଭିଡିଓ (MP4, MOV, WebM) — ଆମେ ଧ୍ୱନିକୁ କାଢ଼ିବା। ସର୍ବାଧିକ 500 MB ପ୍ରତି ଅପଲୋଡ। ଲମ୍ବା ଫାଇଲଗୁଡ଼ିକ? /audio/cut/ ସହିତ ବିଭାଜିତ କରନ୍ତୁ କିମ୍ବା /v1/stt/batch/କୁ ବ୍ୟବହାର କରନ୍ତୁ।

ବକ୍ତା ଡାଇରିକରଣ ଏକ ବିଚ୍ଛିନ୍ନ ପାସ - /transcribe/ ଉପରେ "diarize"କୁ ପରିବର୍ତ୍ତନ କରନ୍ତୁ। faster-whisper large-v3 ଅନୁବାଦକୁ ପରିଚାଳନା କରିଥାଏ; ବକ୍ତା 1 / ବକ୍ତା2/ ଇତ୍ୟାଦି ସହିତ ଡାଇରିକରଣ ପ୍ରତ୍ୟେକ ଅଂଶକୁ ସୂଚକ କରିଥାଏ।

ହଁ — /batch/ ଧ୍ୱନି ଫାଇଲଗୁଡ଼ିକର ଫୋଲଡରକୁ ଗ୍ରହଣ କରିଥାଏ। ପ୍ରତ୍ୟେକ ଅନୁବାଦ /account/?tab=history ରେ ପ୍ରାରମ୍ଭିକ ଫାଇଲନାମ ସହିତ ପହଞ୍ଚିଥାଏ। ଫୋଲଡର-ବୃକ୍ଷ ସଂରକ୍ଷଣ ପାଇଁ API କୁ ବ୍ୟବହାର କରନ୍ତୁ।

ହଁ — ଆପଣଙ୍କର ଧ୍ୱନିକୁ /v1/stt/transcribe/ ରେ POST କରନ୍ତୁ ମଡେଲ="faster-whisper large-v3" ସହିତ। ପାଠ୍ୟ + ଅଂଶ + ଶବ୍ଦ-ସ୍ତର ସମୟସୀମା ସହିତ JSON ଫେରାଇଥାଏ। /api/ ରେ ସମ୍ପୂର୍ଣ୍ଣ ସଂଯୋଗ ଅଛି।

ସ୍ୱୟଂ-ହୋଷ୍ଟ ମଡେଲଗୁଡ଼ିକ ଆମର GPU ରେ ଧ୍ୱନିକୁ ରଖିଥାଏ; ପ୍ରିମିଆ DPA ସହିତ ଦ୍ବାରା ଗତି କରିଥାଏ। ଶବ୍ଦକୁ ଅଂଶଗ୍ରହଣ-ୱିଣ୍ଡୋ ପରେ ଅପସାରଣ କରାଯାଏ (24h ଅନନ, 7d ଲଗଇନ-ଇନ)। ଆମେ ଆପଣଙ୍କର ନିବେଶ ଉପରେ ପ୍ରଶିକ୍ଷଣ ଦେଇନଥାଉ।

ହଁ — Free.ai ଅନୁବାଦର ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ। ଆପଣ ଅଦ୍ୟତନ କରିଥିବା ଧ୍ୱନି ପାଇଁ ଆପଣଙ୍କୁ ଅଧିକାର ଆବଶ୍ୟକ (ଆପଣଙ୍କ ନିଜ ରେକର୍ଡ, ଲାଇସେନ୍ସିତ ବିଷୟବସ୍ତୁ, କିମ୍ବା ଅନୁମତି ସହିତ ବିଷୟବସ୍ତୁ)।

ପ୍ରକୃତ ସମୟ ଫଳକ ପାଖାପାଖି 0.05–0.2× - ଗୋଟିଏ 60-ମିନିଟ ପୋଡକାଷ୍ଟ3–12 ମିନିଟରେ ଅନୁବାଦ କରିଥାଏ। ପ୍ରୀମିୟମ ମଡେଲଗୁଡ଼ିକ ଅଧିକାଂଶ ସମୟରେ ଦ୍ରୁତ ଭାବରେ ସମାପ୍ତ ହୋଇଥାଏ। ଟ୍ୟାବକୁ ବନ୍ଦ କରିବା ପାଇଁ ଧାଡ଼ି ବଟନକୁ ବ୍ୟବହାର କରନ୍ତୁ।

Free.aiକୁ ଭଲପାଆନ୍ତି କି? ଆପଣଙ୍କ ବନ୍ଧୁମାନଙ୍କୁ ଜଣାଇ ଦିଅନ୍ତୁ!

ଏହି ପୃଷ୍ଠାକୁ ଆକଳନ କରନ୍ତୁ