Sesame CSM-1B

Free.ai (self-hosted) · tts · ~500 প্রতি clip
~500 প্রতি clip

Sesame CSM-1B — Apache 2.0. Conversational Speech Model designed for low-latency, real-time voice. 24 kHz output, sounds best with a short reference-audio context turn. Self-hosted on Free.ai for the /voice/realtime/ tool.

API ব্যবহার করো
curl -X POST https://api.free.ai/v1/tts/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"csm-1b","text":"hello world"}'
API নথিপত্র API কী প্রাপ্ত করুন

প্রায়শই জিজ্ঞাসিত প্রশ্ন

Sesame CSM-1B একটি বিস্তৃত ভাষার পরিসর সমর্থন করে। সঠিক তালিকা ইঞ্জিনের উপর নির্ভর করে; এই পৃষ্ঠায় উপস্থিত ফর্ম যেকোন ধরনের টেক্সট গ্রহণ করে এবং ইঞ্জিন সমর্থিত ভাষায় রেন্ডার করবে। যদি আপনার একটি নির্দিষ্ট ভাষার প্রয়োজন হয়, তবে পূর্ণ মাল্টি-ইঞ্জিন নির্বাচনকারীর জন্য /voice/ দেখুন।

বেশিরভাগ ইঞ্জিন ডিফল্টভাবে নিরপেক্ষ-আমেরিকান ইংরেজি এবং অ-ইংরেজি ভাষার জন্য একটি অঞ্চল-সম্মত উচ্চারণ প্রদর্শন করে। প্রাইম ইঞ্জিন উচ্চারণ বৈচিত্র্য প্রকাশ করতে পারে - তুলনা করার জন্য একটি নমুনা পেস্ট করুন।

SSML সমর্থন ইঞ্জিন দ্বারা পরিবর্তিত হয় । বিরতি, প্রসোডি, এবং গুরুত্বপূর্ণ ট্যাগ অধিকাংশ প্রাইম ইঞ্জিন এবং কিছু স্ব- হোস্ট করা ওদের উপর সম্মানিত হয় । প্লেইন টেক্সট সবসময় কাজ করে — কোন মারকিং প্রয়োজন হয় না ।

/v1/tts/ API endpoint এর মাধ্যমে stream=true এর মাধ্যমে প্রাইম ইঞ্জিনগুলিতে স্ট্রিমিং TTS উপলব্ধ। এই পৃষ্ঠায় ওয়েব UI পূর্ণ ক্লিপটি প্রদর্শন করে যখন রেন্ডারিং শেষ হয়।

Sesame CSM-1B আমাদের নিজস্ব GPU-তে চলবে। প্রথমে আপনার দৈনিক ফ্রি পুল থেকে প্রজন্ম আঁকুন। একবার ব্যবহৃত হলে, পে-টোকেন শুরু হবে $৫ → ২০০,০০০ টোকেন। প্রতিটি অক্ষরের জন্য প্রায় ~৫ টোকেন, প্রতিটি ক্লিপের জন্য সর্বনিম্ন ১০০।

ওয়েব ইউআই-এ প্রতি অনুরোধের জন্য ৫,০০০ অক্ষর পর্যন্ত। দীর্ঘ অংশের জন্য (অডিওবই, পূর্ণ অধ্যায়), /voice/audiobook/ ব্যবহার করুন যা স্বয়ংক্রিয়ভাবে চূর্ণ এবং স্টাইল করা হয়, অথবা একটি লুপ-এ API কল করুন।

হ্যাঁ — /v1/tts/batch/ এ স্ট্রিং এর একটি তালিকা পোস্ট করুন, অথবা /workspace/ এ workspace UI ব্যবহার করে TTS-কে একটি দীর্ঘ পাইপলাইনে সংযুক্ত করুন (যেমন, translate → speak → stitch)।

হ্যাঁ — /v1/tts/ এ POST টেক্সট, যার নাম "Sesame CSM-1B" (অথবা এই পৃষ্ঠায় উল্লেখিত slagg)। ফলাফল হবে WAV অথবা MP3। সম্পূর্ণ রেফারেন্স + SDK স্নিপেট দেখুন /api/।

এই পাতাটি টেক্সট-টু-স্পিকার, শব্দ ক্লোন নয় — শব্দ ইঞ্জিনের ডিফল্ট। শব্দ ক্লোন করার জন্য (অডিও রেফারেন্স আপলোড করা) /voice/clone/ দেখুন, যার জন্য আপনার শব্দের অধিকার থাকা আবশ্যক অথবা স্পষ্ট লিখিত অনুমতি থাকা আবশ্যক।

Self-hosted engines run on Free.ai-owned GPUs; nothing leaves our servers. Premium engines pass text to upstream model providers under our DPA. We do not train on your inputs and do not sell data.

Yes — Free.ai grants commercial use of generated audio. The engine's underlying license (Apache 2.0, MIT, or vendor terms) is shown above and on the model reference page; in practice this means voiceovers, ads, podcasts, and apps are all in-scope.

হ্যাঁ — ব্যর্থ কাজ স্বয়ংক্রিয়ভাবে উৎস (দৈনিক পুল বা পরিশোধিত টোকেন)-এ ফেরত পাঠানো হবে। যদি একই দিনে ফেরত পাঠানো না হয়, তাহলে contact@free.ai-এ ই-মেইল করুন।

Free.ai ভালোবাসো?

এই পাতাটি রেটিং দিন