Fal Speech-to-Text

Free.ai · stt · ~500 ପ୍ରତି ଟୋକନଗୁଡ଼ିକ minute

ଧ୍ୱନି କିମ୍ବା ଭିଡିଓ ଫାଇଲକୁ ପକାନ୍ତୁ, କିମ୍ବା URL କୁ ନିମ୍ନରେ ଲଗାନ୍ତୁ

~500 ପ୍ରତି ଟୋକନଗୁଡ଼ିକ minute
ଆମର GPUs ଉପରେ ମୁକ୍ତ ଭାବରେ ଚାଲୁଛି। ଏଥିପାଇଁ ଅଦ୍ୟତନ କରନ୍ତୁ Fal Speech-to-Text →

Fal Speech-to-Text ହେଉଛି a ବାକ୍ୟରୁ ପାଠ୍ୟ ମଡେଲ। ବାହ୍ୟ ନମୂନା ମାଧ୍ୟମରେ ପଥପ୍ରଦର୍ଶନ କରାଯାଇଛି — ~500 ଟୋକନ ପ୍ରତି ମିନିଟ (ଉପଧାରା ଖର୍ଚ୍ଚ ଉପରେ 50% ମାର୍କଅପ)।

API ମାଧ୍ୟମରେ ବ୍ୟବହାର କରନ୍ତୁ

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API ଦଲିଲିକରଣ API କି ଗ୍ରହଣ କରନ୍ତୁ

ସାଧାରଣ ପ୍ରଶ୍ନ

Fal Speech-to-Text ପାଠ୍ୟରେ ବଚନ ଧ୍ୱନିକୁ ଅନୁବାଦ କରିଥାଏ। MP3, WAV, M4A, କିମ୍ବା ଭିଡିଓ ଫାଇଲକୁ ଅପଲୋଡ କରନ୍ତୁ ଏବଂ Fal Speech-to-Text ସମୟସୀମା ସହିତ ଇଚ୍ଛାରୂପୀ SRT/VTT ଉପଶୀର୍ଷକ ସହିତ ସମ୍ପୂର୍ଣ୍ଣ ଅନୁବାଦକୁ ଫେରାଇଥାଏ।

Fal Speech-to-Text ଦଶହରା ଭାଷାଗୁଡ଼ିକୁ ପରିଚାଳନା କରେ - Whisper-ପରିବାର ମଡେଲଗୁଡ଼ିକ 90+, Parakeet ~25, ଅନ୍ୟମାନେ ପରିବର୍ତ୍ତନ କରିଥାଏ। "ସ୍ୱୟଂ-ବିଷ୍ଣୁପାତ" ବାଛନ୍ତୁ କିମ୍ବା ସର୍ବାଧିକ ସଠିକତା ପାଇଁ ଭାଷାକୁ ନିର୍ଦ୍ଦିଷ୍ଟ କରନ୍ତୁ।

ଶବ୍ଦ-ତ୍ରୁଟି ହାର 5-10% ସ୍ୱଚ୍ଛ ଇଂରାଜୀ ଧ୍ୱନିରେ, 10-20% ଶବ୍ଦ-ଘଂଟା ଧ୍ୱନିରେ। ସମାନ ଢାଞ୍ଚାର ବଡ଼ ପ୍ରକାରଗୁଡିକ କଠିନ ମାମଲାରେ ଅଧିକ ଭଲ କାମ କରିଥାଏ - ଧ୍ୱନି କଠିନ ଥିବା ସମୟରେ ବଡ଼କୁ ବାଛନ୍ତୁ।

ହଁ — ପ୍ରତ୍ୟେକ ଅଂଶରେ ଆରମ୍ଭ/ସମପ୍ତି ସମୟସୀମା ଅନ୍ତର୍ଭୁକ୍ତ ଅଛି। SRT କିମ୍ବା VTT ଭାବରେ ରପ୍ତାନି କରନ୍ତୁ ଏବଂ ସମୟ ମାନଚିତ୍ରଟି ଆପଣଙ୍କର ଭିଡିଓରେ ସିଧାସଳଖ ଥାଏ।

Fal Speech-to-Text ଏକ ପ୍ରୀମିୟମ୍ ଅନୁବାଦ ଯନ୍ତ୍ର। ଧ୍ୱନିର ପ୍ରତି ମିନିଟରେ ~500–1,500 ଟୋକନ। $1 = 750,000 ଟୋକନ।

MP3, WAV, M4A, FLAC, OGG, ଏବଂ ଭିଡିଓ (MP4, MOV, WebM) — ଆମେ ଧ୍ୱନିକୁ କାଢ଼ିବା। ସର୍ବାଧିକ 500 MB ପ୍ରତି ଅପଲୋଡ। ଲମ୍ବା ଫାଇଲଗୁଡ଼ିକ? /audio/cut/ ସହିତ ବିଭାଜିତ କରନ୍ତୁ କିମ୍ବା /v1/stt/batch/କୁ ବ୍ୟବହାର କରନ୍ତୁ।

ବକ୍ତା ଡାଇରିକରଣ ଏକ ବିଚ୍ଛିନ୍ନ ପାସ - /transcribe/ ଉପରେ "diarize"କୁ ପରିବର୍ତ୍ତନ କରନ୍ତୁ। Fal Speech-to-Text ଅନୁବାଦକୁ ପରିଚାଳନା କରିଥାଏ; ବକ୍ତା 1 / ବକ୍ତା2/ ଇତ୍ୟାଦି ସହିତ ଡାଇରିକରଣ ପ୍ରତ୍ୟେକ ଅଂଶକୁ ସୂଚକ କରିଥାଏ।

ହଁ — /batch/ ଧ୍ୱନି ଫାଇଲଗୁଡ଼ିକର ଫୋଲଡରକୁ ଗ୍ରହଣ କରିଥାଏ। ପ୍ରତ୍ୟେକ ଅନୁବାଦ /account/?tab=history ରେ ପ୍ରାରମ୍ଭିକ ଫାଇଲନାମ ସହିତ ପହଞ୍ଚିଥାଏ। ଫୋଲଡର-ବୃକ୍ଷ ସଂରକ୍ଷଣ ପାଇଁ API କୁ ବ୍ୟବହାର କରନ୍ତୁ।

ହଁ — ଆପଣଙ୍କର ଧ୍ୱନିକୁ /v1/stt/transcribe/ ରେ POST କରନ୍ତୁ ମଡେଲ="Fal Speech-to-Text" ସହିତ। ପାଠ୍ୟ + ଅଂଶ + ଶବ୍ଦ-ସ୍ତର ସମୟସୀମା ସହିତ JSON ଫେରାଇଥାଏ। /api/ ରେ ସମ୍ପୂର୍ଣ୍ଣ ସଂଯୋଗ ଅଛି।

ସ୍ୱୟଂ-ହୋଷ୍ଟ ମଡେଲଗୁଡ଼ିକ ଆମର GPU ରେ ଧ୍ୱନିକୁ ରଖିଥାଏ; ପ୍ରିମିଆ DPA ସହିତ ଦ୍ବାରା ଗତି କରିଥାଏ। ଶବ୍ଦକୁ ଅଂଶଗ୍ରହଣ-ୱିଣ୍ଡୋ ପରେ ଅପସାରଣ କରାଯାଏ (24h ଅନନ, 7d ଲଗଇନ-ଇନ)। ଆମେ ଆପଣଙ୍କର ନିବେଶ ଉପରେ ପ୍ରଶିକ୍ଷଣ ଦେଇନଥାଉ।

ହଁ — Free.ai ଅନୁବାଦର ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ। ଆପଣ ଅଦ୍ୟତନ କରିଥିବା ଧ୍ୱନି ପାଇଁ ଆପଣଙ୍କୁ ଅଧିକାର ଆବଶ୍ୟକ (ଆପଣଙ୍କ ନିଜ ରେକର୍ଡ, ଲାଇସେନ୍ସିତ ବିଷୟବସ୍ତୁ, କିମ୍ବା ଅନୁମତି ସହିତ ବିଷୟବସ୍ତୁ)।

ପ୍ରକୃତ ସମୟ ଫଳକ ପାଖାପାଖି 0.05–0.2× - ଗୋଟିଏ 60-ମିନିଟ ପୋଡକାଷ୍ଟ3–12 ମିନିଟରେ ଅନୁବାଦ କରିଥାଏ। ପ୍ରୀମିୟମ ମଡେଲଗୁଡ଼ିକ ଅଧିକାଂଶ ସମୟରେ ଦ୍ରୁତ ଭାବରେ ସମାପ୍ତ ହୋଇଥାଏ। ଟ୍ୟାବକୁ ବନ୍ଦ କରିବା ପାଇଁ ଧାଡ଼ି ବଟନକୁ ବ୍ୟବହାର କରନ୍ତୁ।

Free.aiକୁ ଭଲପାଆନ୍ତି କି? ଆପଣଙ୍କ ବନ୍ଧୁମାନଙ୍କୁ ଜଣାଇ ଦିଅନ୍ତୁ!

ଏହି ପୃଷ୍ଠାକୁ ଆକଳନ କରନ୍ତୁ