Piper

Free.ai (self-hosted) · tts · ~500 ପ୍ରତି ଟୋକନଗୁଡ଼ିକ clip · 4.3 ରୁ 3 ଏହି ବିଭାଗର ଚାଳକମାନେ
~500 ପ୍ରତି ଟୋକନଗୁଡ଼ିକ clip

Piper ହେଉଛି a ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ଧ୍ୱନି ଯାହାକି Rhasspy ଦ୍ୱାରା ନିର୍ମିତ। Lightweight TTS, many voices ରେ ସବୁଠାରୁ ଶକ୍ତିଶାଳୀ । Free.ai GPUs ଉପରେ ସ୍ୱୟଂ-ହୋଷ୍ଟ — ଆପଣଙ୍କର ଦୈନିକ ଟୋକନ ପୁଲ (500 ଟୋକନ ପ୍ରତି କ୍ଲିପ) ବିରୋଧରେ ମୁକ୍ତ ଭାବରେ ଚାଲୁଛି। MIT ଅନ୍ତର୍ଗତ ମୁକ୍ତ କରାଯାଇଛି — ବାଣିଜ୍ୟିକ ବ୍ୟବହାର ପାଇଁ ଅନୁମତି Free.ai ରେ ।

API ମାଧ୍ୟମରେ ବ୍ୟବହାର କରନ୍ତୁ

OpenAI-ସଂଗତି REST API. ଗୋଟିଏ କି ସୃଷ୍ଟି କରନ୍ତୁ ଏବଂ ସେକଣ୍ଡଗୁଡ଼ିକରେ ଏହି ନମୂନାକୁ ଡକାନ୍ତୁ।

curl -X POST https://api.free.ai/v1/tts/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"piper","text":"hello world"}'
API ଦଲିଲିକରଣ API କି ଗ୍ରହଣ କରନ୍ତୁ

ସାଧାରଣ ପ୍ରଶ୍ନ

Piper ଭାଷାଗୁଡ଼ିକର ଏକ ବିଶାଳ ପରିସରକୁ ସମର୍ଥନ କରିଥାଏ। ସଠିକ ତାଲିକା ଯନ୍ତ୍ର ଉପରେ ନିର୍ଭର କରିଥାଏ; ଏହି ପୃଷ୍ଠାରେ ଥିବା ଫର୍ମ କୌଣସି ପାଠ୍ୟକୁ ଗ୍ରହଣ କରିଥାଏ ଏବଂ ଯନ୍ତ୍ରଟି ଏହାର ସମର୍ଥିତ ଭାଷାରେ ପ୍ରଦର୍ଶନ କରିବ। ଯଦି ଆପଣଙ୍କୁ ଗୋଟିଏ ନିର୍ଦ୍ଦିଷ୍ଟ ଭାଷା ଆବଶ୍ୟକ ହୋଇଥାଏ, ତେବେ ସମ୍ପୂର୍ଣ୍ଣ ବହୁ-ଯନ୍ତ୍ର ଚୟନକାରୀ ପାଇଁ /voice/ କୁ ଦେଖନ୍ତୁ।

ଅଧିକାଂଶ ଇଞ୍ଜିନ ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଭାବରେ ତୃଣମୂଳ-ଆମେରିକୀୟ ଇଂରାଜୀ ଏବଂ ଅ-ଇଂରାଜୀ ଭାଷାଗୁଡ଼ିକ ପାଇଁ ଏକ କ୍ଷେତ୍ର-ସମ୍ପାଦନୀୟ ଉଚ୍ଚାରଣକୁ ପ୍ରଦର୍ଶନ କରିଥାଏ। ପ୍ରୀମିୟମ ଇଞ୍ଜିନଗୁଡ଼ିକ ଉଚ୍ଚାରଣ ବିକଳ୍ପଗୁଡ଼ିକୁ ପ୍ରଦର୍ଶନ କରିପାରେ - ତୁଳନା କରିବା ପାଇଁ ଗୋଟିଏ ନମୁନାକୁ ଲଗାନ୍ତୁ।

SSML ସମର୍ଥନ ଯନ୍ତ୍ର ଅନୁଯାୟୀ ପରିବର୍ତ୍ତିତ ହୋଇଥାଏ। ବିରତି, ପ୍ରୋସୋଡି, ଏବଂ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଟ୍ୟାଗଗୁଡ଼ିକ ଅଧିକାଂଶ ପ୍ରିମିଆ ଯନ୍ତ୍ର ଏବଂ କିଛି ସ୍ୱୟଂ-ହୋଷ୍ଟ ହୋଇଥିବା ଉପରେ ସମ୍ମାନିତ ହୋଇଥାଏ। ସାଦା ପାଠ୍ୟ ସବୁବେଳେ କାମ କରେ - କୌଣସି ମାର୍କଅପ ଆବଶ୍ୟକ ନାହିଁ।

ପ୍ରବାହ TTS ପ୍ରୀମିୟମ୍ ଇଞ୍ଜିନଗୁଡ଼ିକରେ stream=true ସହିତ /v1/tts/ API ଅନ୍ତିମ ବିନ୍ଦୁ ମାଧ୍ୟମରେ ଉପଲବ୍ଧ। ଏହି ପୃଷ୍ଠାରେ ୱେବ UI ଗୋଟିଏ ରେଣ୍ଡରିଂ ସମାପ୍ତ ହେବା ପରେ ସମ୍ପୂର୍ଣ୍ଣ କଲିପକୁ ଫେରାଇଥାଏ।

Piper ଆମର ନିଜ GPUs ଉପରେ ଚାଲୁଛି। ପ୍ରଥମେ ଆପଣଙ୍କର ଦୈନିକ ମୁକ୍ତ ପୁଲରୁ ଉତ୍ପାଦନ କରନ୍ତୁ। ଏକଥର ଖର୍ଚ୍ଚ ହୋଇଗଲେ, ପୈଠିତ ଟୋକନଗୁଡ଼ିକ $5 → 200,000 ଟୋକନଗୁଡ଼ିକରେ ଆରମ୍ଭ ହୋଇଥାଏ। ପ୍ରାୟ ~5 ଟୋକନ ପ୍ରତି ଅକ୍ଷର, ସର୍ବନିମ୍ନ 100 ପ୍ରତି କଲିପ।

ୱେବ UI ରେ ପ୍ରତି ଅନୁରୋଧରେ 5,000 ଅକ୍ଷର ପର୍ଯ୍ୟନ୍ତ। ଲମ୍ବା ଅଂଶଗୁଡ଼ିକ ପାଇଁ (ଧ୍ୱନି ପୁସ୍ତକ, ସମ୍ପୂର୍ଣ୍ଣ ଅଧ୍ୟାୟ), /voice/audiobook/ କୁ ବ୍ୟବହାର କରନ୍ତୁ ଯାହାକି ସ୍ୱୟଂଚାଳିତ ଭାବରେ ଚୁମ୍ବକ ଏବଂ ଷ୍ଟିଚ ହୋଇଥାଏ, କିମ୍ବା ଗୋଟିଏ ଲୁପରେ API କୁ ଡକାଯାଏ।

ହଁ — /v1/tts/batch/ କୁ ବାକ୍ୟଖଣ୍ଡଗୁଡ଼ିକର ଗୋଟିଏ ତାଲିକା POST କରନ୍ତୁ, କିମ୍ବା /workspace/ ରେ TTS କୁ ଲମ୍ବା ପାଇପଲାଇନରେ ସଂଲଗ୍ନ କରିବା ପାଇଁ କାର୍ଯ୍ୟସ୍ଥଳ UI କୁ ବ୍ୟବହାର କରନ୍ତୁ (ଯେପରିକି, ଅନୁବାଦ କରନ୍ତୁ → କଥାବାର୍ତ୍ତା କରନ୍ତୁ → ଷ୍ଟିଚ)।

ହଁ — /v1/tts/ କୁ POST ପାଠ୍ୟ ମଡେଲ="Piper" ସହିତ (ଅଥବା ଏହି ପୃଷ୍ଠାରେ slug) । WAV କିମ୍ବା MP3 ଫେରାଇଥାଏ । ସମ୍ପୂର୍ଣ୍ଣ ସଂଯୋଗ + SDK ସ୍ନିପେଟଗୁଡ଼ିକ ପାଇଁ /api/ କୁ ଦେଖନ୍ତୁ ।

ଏହି ପୃଷ୍ଠାଟି ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ, ସ୍ୱର କ୍ଲୋନିଂ ନୁହେଁ - ସ୍ୱରଟି ଯନ୍ତ୍ରର ପୂର୍ବନିର୍ଦ୍ଧାରିତ। ସ୍ୱର କ୍ଲୋନିଂ ପାଇଁ (ସଂଦେଷ ଧ୍ୱନିକୁ ଅପଲୋଡ କରିବା), /voice/clone/କୁ ଦେଖନ୍ତୁ, ଯାହାକି ଆପଣଙ୍କୁ ବାକ୍ୟ ଅଧିକାରର ମାଲିକ କିମ୍ବା ସ୍ପଷ୍ଟ ଲିଖିତ ଅନୁମତି ଆବଶ୍ୟକ କରେ।

ସ୍ୱୟଂ-ହୋଷ୍ଟ ଇଞ୍ଜିନଗୁଡ଼ିକ Free.ai-ସମ୍ପାଦିତ GPUs ଉପରେ ଚାଲନ୍ତି; ଆମ ସର୍ଭରଗୁଡ଼ିକରୁ କିଛି ବି ଛାଡିଯାଏ ନାହିଁ। ପ୍ରୀମିୟମ ଇଞ୍ଜିନଗୁଡ଼ିକ ଆମର DPA ଅଧୀନରେ ଉପରମୁହାଣ ମଡେଲ ପ୍ରଦାତାମାନଙ୍କୁ ପାଠ୍ୟ ପଠାଇଥାଏ। ଆମେ ଆପଣଙ୍କର ନିବେଶ ଉପରେ ପ୍ରଶିକ୍ଷଣ ଦେଇନଥାଉ ଏବଂ ତଥ୍ୟ ବିକ୍ରି କରୁନଥାଉ।

ହଁ — Free.ai ଉତ୍ପନ୍ନ ଧ୍ୱନିର ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ। ଇଞ୍ଜିନର ଆଭ୍ୟନ୍ତରୀଣ ଲାଇସେନ୍ସ (Apache 2.0, MIT, କିମ୍ବା ବିକ୍ରେତା ନିୟମ) ଉପର ଏବଂ ନମୂନା ସଂଯୋଗ ପୃଷ୍ଠାରେ ଦର୍ଶାଯାଇଛି; ପ୍ରୟୋଗରେ ଏହାର ଅର୍ଥ ହେଉଛି ଭାଷା, ବିଜ୍ଞାପନ, ପୋଡକାଷ୍ଟ, ଏବଂ ପ୍ରୟୋଗଗୁଡ଼ିକ ସମସ୍ତେ ପରିସରରେ ଅଛି।

ହଁ — ବିଫଳ କାର୍ଯ୍ୟଗୁଡ଼ିକୁ ଉତ୍ସକୁ ସ୍ୱୟଂ-ପୂରଣ କରନ୍ତୁ (ଦିନକୁ ପୁଲ କିମ୍ବା ପୈଠିତ ଟୋକନଗୁଡ଼ିକ)। ଯଦି ଗୋଟିଏ ପଇଠ ସେହି ଦିନ ଦେଖାଯାଉନାହିଁ, ଇମେଲ କରନ୍ତୁ contact@free.ai।

Free.aiକୁ ଭଲପାଆନ୍ତି କି? ଆପଣଙ୍କ ବନ୍ଧୁମାନଙ୍କୁ ଜଣାଇ ଦିଅନ୍ତୁ!

ଏହି ପୃଷ୍ଠାକୁ ଆକଳନ କରନ୍ତୁ