OpenAI: GPT Audio Mini
OpenAI
·
tts
·
~1147 ପ୍ରତି ଟୋକନଗୁଡ଼ିକ clip
·
4.3
ରୁ 3 ଏହି ବିଭାଗର ଚାଳକମାନେ
OpenAI: GPT Audio Mini ହେଉଛି a ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ଧ୍ୱନି ଯାହାକି OpenAI ଦ୍ୱାରା ନିର୍ମିତ। ବାହ୍ୟ ନମୂନା ମାଧ୍ୟମରେ ପଥପ୍ରଦର୍ଶନ କରାଯାଇଛି — ~1,147 ଟୋକନ ପ୍ରତି କ୍ଲିପ (ଉପଧାରା ଖର୍ଚ୍ଚ ଉପରେ 50% ମାର୍କଅପ)।
API ମାଧ୍ୟମରେ ବ୍ୟବହାର କରନ୍ତୁ
curl -X POST https://api.free.ai/v1/tts/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"openai/gpt-audio-mini","text":"hello world"}'
API ଦଲିଲିକରଣ
API କି ଗ୍ରହଣ କରନ୍ତୁ
ସାଧାରଣ ପ୍ରଶ୍ନ
OpenAI: GPT Audio Mini ଭାଷାଗୁଡ଼ିକର ଏକ ବିଶାଳ ପରିସରକୁ ସମର୍ଥନ କରିଥାଏ। ସଠିକ ତାଲିକା ଯନ୍ତ୍ର ଉପରେ ନିର୍ଭର କରିଥାଏ; ଏହି ପୃଷ୍ଠାରେ ଥିବା ଫର୍ମ କୌଣସି ପାଠ୍ୟକୁ ଗ୍ରହଣ କରିଥାଏ ଏବଂ ଯନ୍ତ୍ରଟି ଏହାର ସମର୍ଥିତ ଭାଷାରେ ପ୍ରଦର୍ଶନ କରିବ। ଯଦି ଆପଣଙ୍କୁ ଗୋଟିଏ ନିର୍ଦ୍ଦିଷ୍ଟ ଭାଷା ଆବଶ୍ୟକ ହୋଇଥାଏ, ତେବେ ସମ୍ପୂର୍ଣ୍ଣ ବହୁ-ଯନ୍ତ୍ର ଚୟନକାରୀ ପାଇଁ /voice/ କୁ ଦେଖନ୍ତୁ।
ଅଧିକାଂଶ ଇଞ୍ଜିନ ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଭାବରେ ତୃଣମୂଳ-ଆମେରିକୀୟ ଇଂରାଜୀ ଏବଂ ଅ-ଇଂରାଜୀ ଭାଷାଗୁଡ଼ିକ ପାଇଁ ଏକ କ୍ଷେତ୍ର-ସମ୍ପାଦନୀୟ ଉଚ୍ଚାରଣକୁ ପ୍ରଦର୍ଶନ କରିଥାଏ। ପ୍ରୀମିୟମ ଇଞ୍ଜିନଗୁଡ଼ିକ ଉଚ୍ଚାରଣ ବିକଳ୍ପଗୁଡ଼ିକୁ ପ୍ରଦର୍ଶନ କରିପାରେ - ତୁଳନା କରିବା ପାଇଁ ଗୋଟିଏ ନମୁନାକୁ ଲଗାନ୍ତୁ।
SSML ସମର୍ଥନ ଯନ୍ତ୍ର ଅନୁଯାୟୀ ପରିବର୍ତ୍ତିତ ହୋଇଥାଏ। ବିରତି, ପ୍ରୋସୋଡି, ଏବଂ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଟ୍ୟାଗଗୁଡ଼ିକ ଅଧିକାଂଶ ପ୍ରିମିଆ ଯନ୍ତ୍ର ଏବଂ କିଛି ସ୍ୱୟଂ-ହୋଷ୍ଟ ହୋଇଥିବା ଉପରେ ସମ୍ମାନିତ ହୋଇଥାଏ। ସାଦା ପାଠ୍ୟ ସବୁବେଳେ କାମ କରେ - କୌଣସି ମାର୍କଅପ ଆବଶ୍ୟକ ନାହିଁ।
ପ୍ରବାହ TTS ପ୍ରୀମିୟମ୍ ଇଞ୍ଜିନଗୁଡ଼ିକରେ stream=true ସହିତ /v1/tts/ API ଅନ୍ତିମ ବିନ୍ଦୁ ମାଧ୍ୟମରେ ଉପଲବ୍ଧ। ଏହି ପୃଷ୍ଠାରେ ୱେବ UI ଗୋଟିଏ ରେଣ୍ଡରିଂ ସମାପ୍ତ ହେବା ପରେ ସମ୍ପୂର୍ଣ୍ଣ କଲିପକୁ ଫେରାଇଥାଏ।
OpenAI: GPT Audio Mini ଏକ ପ୍ରୀମିୟମ୍ TTS ଯନ୍ତ୍ର। ଅକ୍ଷର ଗଣନା ସହିତ ଖର୍ଚ୍ଚ ମାପ - ସାଧାରଣତଃ ~30 ଟୋକନ ପ୍ରତି ଅକ୍ଷର। $1 750,000 ଟୋକନ କିଣେ, ତେଣୁ $5 ପ୍ୟାକ ଦଶ ହଜାର ଅକ୍ଷରକୁ କବର ଦେଇଥାଏ।
ୱେବ UI ରେ ପ୍ରତି ଅନୁରୋଧରେ 5,000 ଅକ୍ଷର ପର୍ଯ୍ୟନ୍ତ। ଲମ୍ବା ଅଂଶଗୁଡ଼ିକ ପାଇଁ (ଧ୍ୱନି ପୁସ୍ତକ, ସମ୍ପୂର୍ଣ୍ଣ ଅଧ୍ୟାୟ), /voice/audiobook/ କୁ ବ୍ୟବହାର କରନ୍ତୁ ଯାହାକି ସ୍ୱୟଂଚାଳିତ ଭାବରେ ଚୁମ୍ବକ ଏବଂ ଷ୍ଟିଚ ହୋଇଥାଏ, କିମ୍ବା ଗୋଟିଏ ଲୁପରେ API କୁ ଡକାଯାଏ।
ହଁ — /v1/tts/batch/ କୁ ବାକ୍ୟଖଣ୍ଡଗୁଡ଼ିକର ଗୋଟିଏ ତାଲିକା POST କରନ୍ତୁ, କିମ୍ବା /workspace/ ରେ TTS କୁ ଲମ୍ବା ପାଇପଲାଇନରେ ସଂଲଗ୍ନ କରିବା ପାଇଁ କାର୍ଯ୍ୟସ୍ଥଳ UI କୁ ବ୍ୟବହାର କରନ୍ତୁ (ଯେପରିକି, ଅନୁବାଦ କରନ୍ତୁ → କଥାବାର୍ତ୍ତା କରନ୍ତୁ → ଷ୍ଟିଚ)।
ହଁ — /v1/tts/ କୁ POST ପାଠ୍ୟ ମଡେଲ="OpenAI: GPT Audio Mini" ସହିତ (ଅଥବା ଏହି ପୃଷ୍ଠାରେ slug) । WAV କିମ୍ବା MP3 ଫେରାଇଥାଏ । ସମ୍ପୂର୍ଣ୍ଣ ସଂଯୋଗ + SDK ସ୍ନିପେଟଗୁଡ଼ିକ ପାଇଁ /api/ କୁ ଦେଖନ୍ତୁ ।
ଏହି ପୃଷ୍ଠାଟି ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ, ସ୍ୱର କ୍ଲୋନିଂ ନୁହେଁ - ସ୍ୱରଟି ଯନ୍ତ୍ରର ପୂର୍ବନିର୍ଦ୍ଧାରିତ। ସ୍ୱର କ୍ଲୋନିଂ ପାଇଁ (ସଂଦେଷ ଧ୍ୱନିକୁ ଅପଲୋଡ କରିବା), /voice/clone/କୁ ଦେଖନ୍ତୁ, ଯାହାକି ଆପଣଙ୍କୁ ବାକ୍ୟ ଅଧିକାରର ମାଲିକ କିମ୍ବା ସ୍ପଷ୍ଟ ଲିଖିତ ଅନୁମତି ଆବଶ୍ୟକ କରେ।
ସ୍ୱୟଂ-ହୋଷ୍ଟ ଇଞ୍ଜିନଗୁଡ଼ିକ Free.ai-ସମ୍ପାଦିତ GPUs ଉପରେ ଚାଲନ୍ତି; ଆମ ସର୍ଭରଗୁଡ଼ିକରୁ କିଛି ବି ଛାଡିଯାଏ ନାହିଁ। ପ୍ରୀମିୟମ ଇଞ୍ଜିନଗୁଡ଼ିକ ଆମର DPA ଅଧୀନରେ ଉପରମୁହାଣ ମଡେଲ ପ୍ରଦାତାମାନଙ୍କୁ ପାଠ୍ୟ ପଠାଇଥାଏ। ଆମେ ଆପଣଙ୍କର ନିବେଶ ଉପରେ ପ୍ରଶିକ୍ଷଣ ଦେଇନଥାଉ ଏବଂ ତଥ୍ୟ ବିକ୍ରି କରୁନଥାଉ।
ହଁ — Free.ai ଉତ୍ପନ୍ନ ଧ୍ୱନିର ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ। ଇଞ୍ଜିନର ଆଭ୍ୟନ୍ତରୀଣ ଲାଇସେନ୍ସ (Apache 2.0, MIT, କିମ୍ବା ବିକ୍ରେତା ନିୟମ) ଉପର ଏବଂ ନମୂନା ସଂଯୋଗ ପୃଷ୍ଠାରେ ଦର୍ଶାଯାଇଛି; ପ୍ରୟୋଗରେ ଏହାର ଅର୍ଥ ହେଉଛି ଭାଷା, ବିଜ୍ଞାପନ, ପୋଡକାଷ୍ଟ, ଏବଂ ପ୍ରୟୋଗଗୁଡ଼ିକ ସମସ୍ତେ ପରିସରରେ ଅଛି।
ହଁ — ବିଫଳ କାର୍ଯ୍ୟଗୁଡ଼ିକୁ ଉତ୍ସକୁ ସ୍ୱୟଂ-ପୂରଣ କରନ୍ତୁ (ଦିନକୁ ପୁଲ କିମ୍ବା ପୈଠିତ ଟୋକନଗୁଡ଼ିକ)। ଯଦି ଗୋଟିଏ ପଇଠ ସେହି ଦିନ ଦେଖାଯାଉନାହିଁ, ଇମେଲ କରନ୍ତୁ contact@free.ai।