Sesame CSM-1B
Free.ai (self-hosted)
·
tts
·
~500 الرموز لكل clip
Sesame CSM-1B - Apache 2.0 نموذج الكلام المحادثي المصمم للصوت ذو التأخير المنخفض في الوقت الحقيقي. مخرج 24 كيلوهرتز، يبدو أفضل مع تحول قصير في السياق المرجعي السمعي. مستضاف بنفسه على Free.ai لأداة /voice/realtime/.
الاستخدام عن طريق واجهة البرمجة
curl -X POST https://api.free.ai/v1/tts/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"csm-1b","text":"hello world"}'
وثائق API
احصل على مفتاح API
الأسئلة المتكررة
Sesame CSM-1B يدعم مجموعة واسعة من اللغات. القائمة الدقيقة تعتمد على المحرك؛ النموذج في هذه الصفحة يقبل أي نص والمحرك سيعرض باللغات المدعومة. انظر /voice/ للحصول على خيار كامل متعدد المحركات إذا كنت بحاجة إلى لغة محددة.
معظم المحركات تقوم بعرض اللغة الإنجليزية الأمريكية المحايدة تلقائيا ولهجة مناسبة للمنطقة بالنسبة للغات غير الإنجليزية.المحركات العالية الجودة قد تكشف عن أشكال مختلفة من اللهجة - لصق عينة للمقارنة.
يختلف دعم SSML حسب المحرك. يتم احترام علامات التوقف، والصوتية، والتأكيد على معظم محركات الدفع العالية وبعض المحركات المستضافة ذاتياً. يعمل النص العادي دائماً - لا توجد علامات مطلوبة.
تدفق TTS متاح على محركات عالية الجودة من خلال نقطة نهاية /v1/tts/ API مع stream=true.
Sesame CSM-1B يعمل على وحدات المعالجة الخاصة بنا. يسحب الجيل من مجمعك اليومي المجاني أولاً. بمجرد استنفادها، تبدأ الرموز المدفوعة من $5 → 200,000 رموز. تقريباً ~5 رموز لكل شخصية، الحد الأدنى 100 لكل مقطع.
يصل طول كل طلب على واجهة المستخدم الشبكية إلى 000 5 حرف. وبالنسبة للقطع الأطول (الكتب السمعية، الفصول الكاملة)، استخدم /voice/audiobook/ الذي يقسم الطلب إلى أجزاء ويجمعها تلقائيا، أو استدعاء برنامج التطبيقات البرمجية في حلقة.
نعم — POST قائمة من السلسلة إلى /v1/tts/batch/، أو استخدام واجهة المستخدم في مساحة العمل في /workspace/ لتسلسل TTS في خط أنابيب أطول (مثلا، ترجمة → تحدث → لصق).
نعم — POST text to /v1/tts/ with model="Sesame CSM-1B" (or the slug on this page). returns WAV or MP3. See /api/ for full reference + SDK snippets.
هذه الصفحة هي نص إلى حديث، وليس استنساخ الصوت - الصوت هو المحرك الافتراضي. للاستنساخ الصوتي (تحميل مرجع صوت)، انظر /voice/clone/، الذي يتطلب منك إما امتلاك حقوق الصوت أو الحصول على موافقة كتابية صريحة.
محركات الاستضافة الذاتية تعمل على وحدات المعالجة المركزية المملوكة لـ Free.ai؛ لا شيء يغادر خوادمنا. محركات الدفع تنقل النص إلى مقدمي النماذج في المرحلة الأولى تحت DPA. نحن لا ندرب على مدخلاتك ولا نبيع البيانات.
نعم — Free.ai يمنح الاستخدام التجاري للصوت المولد. ترخيص المحرك الأساسي (أباتشي 2.0، MIT، أو شروط البائع) يظهر أعلاه وفي الصفحة المرجعية للنموذج؛ في الممارسة العملية، يعني هذا أن الصوتيات، والإعلانات، والبودكاست، والتطبيقات كلها في النطاق.
نعم - الوظائف الفاشلة إعادة تلقائية إلى المصدر (المجمع اليومي أو الرموز المدفوعة). إذا لم يظهر رد في اليوم نفسه، بريد إلكتروني contact@free.ai.