Chatterbox

Free.ai (self-hosted) · tts · ~500 ପ୍ରତି ଟୋକନଗୁଡ଼ିକ clip · 4.3 ରୁ 3 ଏହି ବିଭାଗର ଚାଳକମାନେ
~500 ପ୍ରତି ଟୋକନଗୁଡ଼ିକ clip

Chatterbox ହେଉଛି a ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ଧ୍ୱନି ଯାହାକି Resemble AI ଦ୍ୱାରା ନିର୍ମିତ। Expressive speech, voice cloning ରେ ସବୁଠାରୁ ଶକ୍ତିଶାଳୀ । Free.ai GPUs ଉପରେ ସ୍ୱୟଂ-ହୋଷ୍ଟ — ଆପଣଙ୍କର ଦୈନିକ ଟୋକନ ପୁଲ (500 ଟୋକନ ପ୍ରତି କ୍ଲିପ) ବିରୋଧରେ ମୁକ୍ତ ଭାବରେ ଚାଲୁଛି। MIT ଅନ୍ତର୍ଗତ ମୁକ୍ତ କରାଯାଇଛି — ବାଣିଜ୍ୟିକ ବ୍ୟବହାର ପାଇଁ ଅନୁମତି Free.ai ରେ ।

API ମାଧ୍ୟମରେ ବ୍ୟବହାର କରନ୍ତୁ

OpenAI-ସଂଗତି REST API. ଗୋଟିଏ କି ସୃଷ୍ଟି କରନ୍ତୁ ଏବଂ ସେକଣ୍ଡଗୁଡ଼ିକରେ ଏହି ନମୂନାକୁ ଡକାନ୍ତୁ।

curl -X POST https://api.free.ai/v1/tts/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"chatterbox","text":"hello world"}'
API ଦଲିଲିକରଣ API କି ଗ୍ରହଣ କରନ୍ତୁ

ସାଧାରଣ ପ୍ରଶ୍ନ

Chatterbox ଭାଷାଗୁଡ଼ିକର ଏକ ବିଶାଳ ପରିସରକୁ ସମର୍ଥନ କରିଥାଏ। ସଠିକ ତାଲିକା ଯନ୍ତ୍ର ଉପରେ ନିର୍ଭର କରିଥାଏ; ଏହି ପୃଷ୍ଠାରେ ଥିବା ଫର୍ମ କୌଣସି ପାଠ୍ୟକୁ ଗ୍ରହଣ କରିଥାଏ ଏବଂ ଯନ୍ତ୍ରଟି ଏହାର ସମର୍ଥିତ ଭାଷାରେ ପ୍ରଦର୍ଶନ କରିବ। ଯଦି ଆପଣଙ୍କୁ ଗୋଟିଏ ନିର୍ଦ୍ଦିଷ୍ଟ ଭାଷା ଆବଶ୍ୟକ ହୋଇଥାଏ, ତେବେ ସମ୍ପୂର୍ଣ୍ଣ ବହୁ-ଯନ୍ତ୍ର ଚୟନକାରୀ ପାଇଁ /voice/ କୁ ଦେଖନ୍ତୁ।

ଅଧିକାଂଶ ଇଞ୍ଜିନ ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଭାବରେ ତୃଣମୂଳ-ଆମେରିକୀୟ ଇଂରାଜୀ ଏବଂ ଅ-ଇଂରାଜୀ ଭାଷାଗୁଡ଼ିକ ପାଇଁ ଏକ କ୍ଷେତ୍ର-ସମ୍ପାଦନୀୟ ଉଚ୍ଚାରଣକୁ ପ୍ରଦର୍ଶନ କରିଥାଏ। ପ୍ରୀମିୟମ ଇଞ୍ଜିନଗୁଡ଼ିକ ଉଚ୍ଚାରଣ ବିକଳ୍ପଗୁଡ଼ିକୁ ପ୍ରଦର୍ଶନ କରିପାରେ - ତୁଳନା କରିବା ପାଇଁ ଗୋଟିଏ ନମୁନାକୁ ଲଗାନ୍ତୁ।

SSML ସମର୍ଥନ ଯନ୍ତ୍ର ଅନୁଯାୟୀ ପରିବର୍ତ୍ତିତ ହୋଇଥାଏ। ବିରତି, ପ୍ରୋସୋଡି, ଏବଂ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଟ୍ୟାଗଗୁଡ଼ିକ ଅଧିକାଂଶ ପ୍ରିମିଆ ଯନ୍ତ୍ର ଏବଂ କିଛି ସ୍ୱୟଂ-ହୋଷ୍ଟ ହୋଇଥିବା ଉପରେ ସମ୍ମାନିତ ହୋଇଥାଏ। ସାଦା ପାଠ୍ୟ ସବୁବେଳେ କାମ କରେ - କୌଣସି ମାର୍କଅପ ଆବଶ୍ୟକ ନାହିଁ।

ପ୍ରବାହ TTS ପ୍ରୀମିୟମ୍ ଇଞ୍ଜିନଗୁଡ଼ିକରେ stream=true ସହିତ /v1/tts/ API ଅନ୍ତିମ ବିନ୍ଦୁ ମାଧ୍ୟମରେ ଉପଲବ୍ଧ। ଏହି ପୃଷ୍ଠାରେ ୱେବ UI ଗୋଟିଏ ରେଣ୍ଡରିଂ ସମାପ୍ତ ହେବା ପରେ ସମ୍ପୂର୍ଣ୍ଣ କଲିପକୁ ଫେରାଇଥାଏ।

Chatterbox ଆମର ନିଜ GPUs ଉପରେ ଚାଲୁଛି। ପ୍ରଥମେ ଆପଣଙ୍କର ଦୈନିକ ମୁକ୍ତ ପୁଲରୁ ଉତ୍ପାଦନ କରନ୍ତୁ। ଏକଥର ଖର୍ଚ୍ଚ ହୋଇଗଲେ, ପୈଠିତ ଟୋକନଗୁଡ଼ିକ $5 → 200,000 ଟୋକନଗୁଡ଼ିକରେ ଆରମ୍ଭ ହୋଇଥାଏ। ପ୍ରାୟ ~5 ଟୋକନ ପ୍ରତି ଅକ୍ଷର, ସର୍ବନିମ୍ନ 100 ପ୍ରତି କଲିପ।

ୱେବ UI ରେ ପ୍ରତି ଅନୁରୋଧରେ 5,000 ଅକ୍ଷର ପର୍ଯ୍ୟନ୍ତ। ଲମ୍ବା ଅଂଶଗୁଡ଼ିକ ପାଇଁ (ଧ୍ୱନି ପୁସ୍ତକ, ସମ୍ପୂର୍ଣ୍ଣ ଅଧ୍ୟାୟ), /voice/audiobook/ କୁ ବ୍ୟବହାର କରନ୍ତୁ ଯାହାକି ସ୍ୱୟଂଚାଳିତ ଭାବରେ ଚୁମ୍ବକ ଏବଂ ଷ୍ଟିଚ ହୋଇଥାଏ, କିମ୍ବା ଗୋଟିଏ ଲୁପରେ API କୁ ଡକାଯାଏ।

ହଁ — /v1/tts/batch/ କୁ ବାକ୍ୟଖଣ୍ଡଗୁଡ଼ିକର ଗୋଟିଏ ତାଲିକା POST କରନ୍ତୁ, କିମ୍ବା /workspace/ ରେ TTS କୁ ଲମ୍ବା ପାଇପଲାଇନରେ ସଂଲଗ୍ନ କରିବା ପାଇଁ କାର୍ଯ୍ୟସ୍ଥଳ UI କୁ ବ୍ୟବହାର କରନ୍ତୁ (ଯେପରିକି, ଅନୁବାଦ କରନ୍ତୁ → କଥାବାର୍ତ୍ତା କରନ୍ତୁ → ଷ୍ଟିଚ)।

ହଁ — /v1/tts/ କୁ POST ପାଠ୍ୟ ମଡେଲ="Chatterbox" ସହିତ (ଅଥବା ଏହି ପୃଷ୍ଠାରେ slug) । WAV କିମ୍ବା MP3 ଫେରାଇଥାଏ । ସମ୍ପୂର୍ଣ୍ଣ ସଂଯୋଗ + SDK ସ୍ନିପେଟଗୁଡ଼ିକ ପାଇଁ /api/ କୁ ଦେଖନ୍ତୁ ।

ଏହି ପୃଷ୍ଠାଟି ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ, ସ୍ୱର କ୍ଲୋନିଂ ନୁହେଁ - ସ୍ୱରଟି ଯନ୍ତ୍ରର ପୂର୍ବନିର୍ଦ୍ଧାରିତ। ସ୍ୱର କ୍ଲୋନିଂ ପାଇଁ (ସଂଦେଷ ଧ୍ୱନିକୁ ଅପଲୋଡ କରିବା), /voice/clone/କୁ ଦେଖନ୍ତୁ, ଯାହାକି ଆପଣଙ୍କୁ ବାକ୍ୟ ଅଧିକାରର ମାଲିକ କିମ୍ବା ସ୍ପଷ୍ଟ ଲିଖିତ ଅନୁମତି ଆବଶ୍ୟକ କରେ।

ସ୍ୱୟଂ-ହୋଷ୍ଟ ଇଞ୍ଜିନଗୁଡ଼ିକ Free.ai-ସମ୍ପାଦିତ GPUs ଉପରେ ଚାଲନ୍ତି; ଆମ ସର୍ଭରଗୁଡ଼ିକରୁ କିଛି ବି ଛାଡିଯାଏ ନାହିଁ। ପ୍ରୀମିୟମ ଇଞ୍ଜିନଗୁଡ଼ିକ ଆମର DPA ଅଧୀନରେ ଉପରମୁହାଣ ମଡେଲ ପ୍ରଦାତାମାନଙ୍କୁ ପାଠ୍ୟ ପଠାଇଥାଏ। ଆମେ ଆପଣଙ୍କର ନିବେଶ ଉପରେ ପ୍ରଶିକ୍ଷଣ ଦେଇନଥାଉ ଏବଂ ତଥ୍ୟ ବିକ୍ରି କରୁନଥାଉ।

ହଁ — Free.ai ଉତ୍ପନ୍ନ ଧ୍ୱନିର ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ। ଇଞ୍ଜିନର ଆଭ୍ୟନ୍ତରୀଣ ଲାଇସେନ୍ସ (Apache 2.0, MIT, କିମ୍ବା ବିକ୍ରେତା ନିୟମ) ଉପର ଏବଂ ନମୂନା ସଂଯୋଗ ପୃଷ୍ଠାରେ ଦର୍ଶାଯାଇଛି; ପ୍ରୟୋଗରେ ଏହାର ଅର୍ଥ ହେଉଛି ଭାଷା, ବିଜ୍ଞାପନ, ପୋଡକାଷ୍ଟ, ଏବଂ ପ୍ରୟୋଗଗୁଡ଼ିକ ସମସ୍ତେ ପରିସରରେ ଅଛି।

ହଁ — ବିଫଳ କାର୍ଯ୍ୟଗୁଡ଼ିକୁ ଉତ୍ସକୁ ସ୍ୱୟଂ-ପୂରଣ କରନ୍ତୁ (ଦିନକୁ ପୁଲ କିମ୍ବା ପୈଠିତ ଟୋକନଗୁଡ଼ିକ)। ଯଦି ଗୋଟିଏ ପଇଠ ସେହି ଦିନ ଦେଖାଯାଉନାହିଁ, ଇମେଲ କରନ୍ତୁ contact@free.ai।

Free.aiକୁ ଭଲପାଆନ୍ତି କି? ଆପଣଙ୍କ ବନ୍ଧୁମାନଙ୍କୁ ଜଣାଇ ଦିଅନ୍ତୁ!

ଏହି ପୃଷ୍ଠାକୁ ଆକଳନ କରନ୍ତୁ