VibeVoice

Free.ai (self-hosted) · tts · ~500 ପ୍ରତି ଟୋକନଗୁଡ଼ିକ clip · 4.3 ରୁ 3 ଏହି ବିଭାଗର ଚାଳକମାନେ
~500 ପ୍ରତି ଟୋକନଗୁଡ଼ିକ clip

VibeVoice ହେଉଛି a ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ଧ୍ୱନି ଯାହାକି Microsoft ଦ୍ୱାରା ନିର୍ମିତ। Long-form audiobooks and multi-speaker podcasts with up to four distinct voices. ରେ ସବୁଠାରୁ ଶକ୍ତିଶାଳୀ । Free.ai GPUs ଉପରେ ସ୍ୱୟଂ-ହୋଷ୍ଟ — ଆପଣଙ୍କର ଦୈନିକ ଟୋକନ ପୁଲ (500 ଟୋକନ ପ୍ରତି କ୍ଲିପ) ବିରୋଧରେ ମୁକ୍ତ ଭାବରେ ଚାଲୁଛି। MIT ଅନ୍ତର୍ଗତ ମୁକ୍ତ କରାଯାଇଛି — ବାଣିଜ୍ୟିକ ବ୍ୟବହାର ପାଇଁ ଅନୁମତି Free.ai ରେ ।

API ମାଧ୍ୟମରେ ବ୍ୟବହାର କରନ୍ତୁ
curl -X POST https://api.free.ai/v1/tts/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"vibevoice","text":"hello world"}'
API ଦଲିଲିକରଣ API କି ଗ୍ରହଣ କରନ୍ତୁ

ସାଧାରଣ ପ୍ରଶ୍ନ

VibeVoice ଭାଷାଗୁଡ଼ିକର ଏକ ବିଶାଳ ପରିସରକୁ ସମର୍ଥନ କରିଥାଏ। ସଠିକ ତାଲିକା ଯନ୍ତ୍ର ଉପରେ ନିର୍ଭର କରିଥାଏ; ଏହି ପୃଷ୍ଠାରେ ଥିବା ଫର୍ମ କୌଣସି ପାଠ୍ୟକୁ ଗ୍ରହଣ କରିଥାଏ ଏବଂ ଯନ୍ତ୍ରଟି ଏହାର ସମର୍ଥିତ ଭାଷାରେ ପ୍ରଦର୍ଶନ କରିବ। ଯଦି ଆପଣଙ୍କୁ ଗୋଟିଏ ନିର୍ଦ୍ଦିଷ୍ଟ ଭାଷା ଆବଶ୍ୟକ ହୋଇଥାଏ, ତେବେ ସମ୍ପୂର୍ଣ୍ଣ ବହୁ-ଯନ୍ତ୍ର ଚୟନକାରୀ ପାଇଁ /voice/ କୁ ଦେଖନ୍ତୁ।

ଅଧିକାଂଶ ଇଞ୍ଜିନ ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଭାବରେ ତୃଣମୂଳ-ଆମେରିକୀୟ ଇଂରାଜୀ ଏବଂ ଅ-ଇଂରାଜୀ ଭାଷାଗୁଡ଼ିକ ପାଇଁ ଏକ କ୍ଷେତ୍ର-ସମ୍ପାଦନୀୟ ଉଚ୍ଚାରଣକୁ ପ୍ରଦର୍ଶନ କରିଥାଏ। ପ୍ରୀମିୟମ ଇଞ୍ଜିନଗୁଡ଼ିକ ଉଚ୍ଚାରଣ ବିକଳ୍ପଗୁଡ଼ିକୁ ପ୍ରଦର୍ଶନ କରିପାରେ - ତୁଳନା କରିବା ପାଇଁ ଗୋଟିଏ ନମୁନାକୁ ଲଗାନ୍ତୁ।

SSML ସମର୍ଥନ ଯନ୍ତ୍ର ଅନୁଯାୟୀ ପରିବର୍ତ୍ତିତ ହୋଇଥାଏ। ବିରତି, ପ୍ରୋସୋଡି, ଏବଂ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଟ୍ୟାଗଗୁଡ଼ିକ ଅଧିକାଂଶ ପ୍ରିମିଆ ଯନ୍ତ୍ର ଏବଂ କିଛି ସ୍ୱୟଂ-ହୋଷ୍ଟ ହୋଇଥିବା ଉପରେ ସମ୍ମାନିତ ହୋଇଥାଏ। ସାଦା ପାଠ୍ୟ ସବୁବେଳେ କାମ କରେ - କୌଣସି ମାର୍କଅପ ଆବଶ୍ୟକ ନାହିଁ।

ପ୍ରବାହ TTS ପ୍ରୀମିୟମ୍ ଇଞ୍ଜିନଗୁଡ଼ିକରେ stream=true ସହିତ /v1/tts/ API ଅନ୍ତିମ ବିନ୍ଦୁ ମାଧ୍ୟମରେ ଉପଲବ୍ଧ। ଏହି ପୃଷ୍ଠାରେ ୱେବ UI ଗୋଟିଏ ରେଣ୍ଡରିଂ ସମାପ୍ତ ହେବା ପରେ ସମ୍ପୂର୍ଣ୍ଣ କଲିପକୁ ଫେରାଇଥାଏ।

VibeVoice ଆମର ନିଜ GPUs ଉପରେ ଚାଲୁଛି। ପ୍ରଥମେ ଆପଣଙ୍କର ଦୈନିକ ମୁକ୍ତ ପୁଲରୁ ଉତ୍ପାଦନ କରନ୍ତୁ। ଏକଥର ଖର୍ଚ୍ଚ ହୋଇଗଲେ, ପୈଠିତ ଟୋକନଗୁଡ଼ିକ $5 → 200,000 ଟୋକନଗୁଡ଼ିକରେ ଆରମ୍ଭ ହୋଇଥାଏ। ପ୍ରାୟ ~5 ଟୋକନ ପ୍ରତି ଅକ୍ଷର, ସର୍ବନିମ୍ନ 100 ପ୍ରତି କଲିପ।

ୱେବ UI ରେ ପ୍ରତି ଅନୁରୋଧରେ 5,000 ଅକ୍ଷର ପର୍ଯ୍ୟନ୍ତ। ଲମ୍ବା ଅଂଶଗୁଡ଼ିକ ପାଇଁ (ଧ୍ୱନି ପୁସ୍ତକ, ସମ୍ପୂର୍ଣ୍ଣ ଅଧ୍ୟାୟ), /voice/audiobook/ କୁ ବ୍ୟବହାର କରନ୍ତୁ ଯାହାକି ସ୍ୱୟଂଚାଳିତ ଭାବରେ ଚୁମ୍ବକ ଏବଂ ଷ୍ଟିଚ ହୋଇଥାଏ, କିମ୍ବା ଗୋଟିଏ ଲୁପରେ API କୁ ଡକାଯାଏ।

ହଁ — /v1/tts/batch/ କୁ ବାକ୍ୟଖଣ୍ଡଗୁଡ଼ିକର ଗୋଟିଏ ତାଲିକା POST କରନ୍ତୁ, କିମ୍ବା /workspace/ ରେ TTS କୁ ଲମ୍ବା ପାଇପଲାଇନରେ ସଂଲଗ୍ନ କରିବା ପାଇଁ କାର୍ଯ୍ୟସ୍ଥଳ UI କୁ ବ୍ୟବହାର କରନ୍ତୁ (ଯେପରିକି, ଅନୁବାଦ କରନ୍ତୁ → କଥାବାର୍ତ୍ତା କରନ୍ତୁ → ଷ୍ଟିଚ)।

ହଁ — /v1/tts/ କୁ POST ପାଠ୍ୟ ମଡେଲ="VibeVoice" ସହିତ (ଅଥବା ଏହି ପୃଷ୍ଠାରେ slug) । WAV କିମ୍ବା MP3 ଫେରାଇଥାଏ । ସମ୍ପୂର୍ଣ୍ଣ ସଂଯୋଗ + SDK ସ୍ନିପେଟଗୁଡ଼ିକ ପାଇଁ /api/ କୁ ଦେଖନ୍ତୁ ।

ଏହି ପୃଷ୍ଠାଟି ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ, ସ୍ୱର କ୍ଲୋନିଂ ନୁହେଁ - ସ୍ୱରଟି ଯନ୍ତ୍ରର ପୂର୍ବନିର୍ଦ୍ଧାରିତ। ସ୍ୱର କ୍ଲୋନିଂ ପାଇଁ (ସଂଦେଷ ଧ୍ୱନିକୁ ଅପଲୋଡ କରିବା), /voice/clone/କୁ ଦେଖନ୍ତୁ, ଯାହାକି ଆପଣଙ୍କୁ ବାକ୍ୟ ଅଧିକାରର ମାଲିକ କିମ୍ବା ସ୍ପଷ୍ଟ ଲିଖିତ ଅନୁମତି ଆବଶ୍ୟକ କରେ।

ସ୍ୱୟଂ-ହୋଷ୍ଟ ଇଞ୍ଜିନଗୁଡ଼ିକ Free.ai-ସମ୍ପାଦିତ GPUs ଉପରେ ଚାଲନ୍ତି; ଆମ ସର୍ଭରଗୁଡ଼ିକରୁ କିଛି ବି ଛାଡିଯାଏ ନାହିଁ। ପ୍ରୀମିୟମ ଇଞ୍ଜିନଗୁଡ଼ିକ ଆମର DPA ଅଧୀନରେ ଉପରମୁହାଣ ମଡେଲ ପ୍ରଦାତାମାନଙ୍କୁ ପାଠ୍ୟ ପଠାଇଥାଏ। ଆମେ ଆପଣଙ୍କର ନିବେଶ ଉପରେ ପ୍ରଶିକ୍ଷଣ ଦେଇନଥାଉ ଏବଂ ତଥ୍ୟ ବିକ୍ରି କରୁନଥାଉ।

ହଁ — Free.ai ଉତ୍ପନ୍ନ ଧ୍ୱନିର ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ। ଇଞ୍ଜିନର ଆଭ୍ୟନ୍ତରୀଣ ଲାଇସେନ୍ସ (Apache 2.0, MIT, କିମ୍ବା ବିକ୍ରେତା ନିୟମ) ଉପର ଏବଂ ନମୂନା ସଂଯୋଗ ପୃଷ୍ଠାରେ ଦର୍ଶାଯାଇଛି; ପ୍ରୟୋଗରେ ଏହାର ଅର୍ଥ ହେଉଛି ଭାଷା, ବିଜ୍ଞାପନ, ପୋଡକାଷ୍ଟ, ଏବଂ ପ୍ରୟୋଗଗୁଡ଼ିକ ସମସ୍ତେ ପରିସରରେ ଅଛି।

ହଁ — ବିଫଳ କାର୍ଯ୍ୟଗୁଡ଼ିକୁ ଉତ୍ସକୁ ସ୍ୱୟଂ-ପୂରଣ କରନ୍ତୁ (ଦିନକୁ ପୁଲ କିମ୍ବା ପୈଠିତ ଟୋକନଗୁଡ଼ିକ)। ଯଦି ଗୋଟିଏ ପଇଠ ସେହି ଦିନ ଦେଖାଯାଉନାହିଁ, ଇମେଲ କରନ୍ତୁ contact@free.ai।

Free.aiକୁ ଭଲପାଆନ୍ତି କି? ଆପଣଙ୍କ ବନ୍ଧୁମାନଙ୍କୁ ଜଣାଇ ଦିଅନ୍ତୁ!

ଏହି ପୃଷ୍ଠାକୁ ଆକଳନ କରନ୍ତୁ