Sesame CSM-1B

Free.ai (self-hosted) · tts · ~500 الرموز لكل clip

نص للتحدث

الصوت

السرعة

~500 الرموز لكل clip

Sesame CSM-1B - Apache 2.0 نموذج الكلام المحادثي المصمم للصوت ذو التأخير المنخفض في الوقت الحقيقي. مخرج 24 كيلوهرتز، يبدو أفضل مع تحول قصير في السياق المرجعي السمعي. مستضاف بنفسه على Free.ai لأداة /voice/realtime/.

الاستخدام عن طريق واجهة البرمجة

curl -X POST https://api.free.ai/v1/tts/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"csm-1b","text":"hello world"}'

وثائق API احصل على مفتاح API

الأسئلة المتكررة

Sesame CSM-1B يدعم مجموعة واسعة من اللغات. القائمة الدقيقة تعتمد على المحرك؛ النموذج في هذه الصفحة يقبل أي نص والمحرك سيعرض باللغات المدعومة. انظر /voice/ للحصول على خيار كامل متعدد المحركات إذا كنت بحاجة إلى لغة محددة.

معظم المحركات تقوم بعرض اللغة الإنجليزية الأمريكية المحايدة تلقائيا ولهجة مناسبة للمنطقة بالنسبة للغات غير الإنجليزية.المحركات العالية الجودة قد تكشف عن أشكال مختلفة من اللهجة - لصق عينة للمقارنة.

يختلف دعم SSML حسب المحرك. يتم احترام علامات التوقف، والصوتية، والتأكيد على معظم محركات الدفع العالية وبعض المحركات المستضافة ذاتياً. يعمل النص العادي دائماً - لا توجد علامات مطلوبة.

تدفق TTS متاح على محركات عالية الجودة من خلال نقطة نهاية /v1/tts/ API مع stream=true.

Sesame CSM-1B يعمل على وحدات المعالجة الخاصة بنا. يسحب الجيل من مجمعك اليومي المجاني أولاً. بمجرد استنفادها، تبدأ الرموز المدفوعة من $5 → 200,000 رموز. تقريباً ~5 رموز لكل شخصية، الحد الأدنى 100 لكل مقطع.

يصل طول كل طلب على واجهة المستخدم الشبكية إلى 000 5 حرف. وبالنسبة للقطع الأطول (الكتب السمعية، الفصول الكاملة)، استخدم /voice/audiobook/ الذي يقسم الطلب إلى أجزاء ويجمعها تلقائيا، أو استدعاء برنامج التطبيقات البرمجية في حلقة.

نعم — POST قائمة من السلسلة إلى /v1/tts/batch/، أو استخدام واجهة المستخدم في مساحة العمل في /workspace/ لتسلسل TTS في خط أنابيب أطول (مثلا، ترجمة → تحدث → لصق).

نعم — POST text to /v1/tts/ with model="Sesame CSM-1B" (or the slug on this page). returns WAV or MP3. See /api/ for full reference + SDK snippets.

هذه الصفحة هي نص إلى حديث، وليس استنساخ الصوت - الصوت هو المحرك الافتراضي. للاستنساخ الصوتي (تحميل مرجع صوت)، انظر /voice/clone/، الذي يتطلب منك إما امتلاك حقوق الصوت أو الحصول على موافقة كتابية صريحة.

محركات الاستضافة الذاتية تعمل على وحدات المعالجة المركزية المملوكة لـ Free.ai؛ لا شيء يغادر خوادمنا. محركات الدفع تنقل النص إلى مقدمي النماذج في المرحلة الأولى تحت DPA. نحن لا ندرب على مدخلاتك ولا نبيع البيانات.

نعم — Free.ai يمنح الاستخدام التجاري للصوت المولد. ترخيص المحرك الأساسي (أباتشي 2.0، MIT، أو شروط البائع) يظهر أعلاه وفي الصفحة المرجعية للنموذج؛ في الممارسة العملية، يعني هذا أن الصوتيات، والإعلانات، والبودكاست، والتطبيقات كلها في النطاق.

نعم - الوظائف الفاشلة إعادة تلقائية إلى المصدر (المجمع اليومي أو الرموز المدفوعة). إذا لم يظهر رد في اليوم نفسه، بريد إلكتروني contact@free.ai.

Sesame CSM-1B

الأسئلة المتكررة

ما هي اللغات التي يغطيها Sesame CSM-1B؟

هل لـ Sesame CSM-1B لهجة معروفة؟

هل يمكنني استخدام SSML مع Sesame CSM-1B؟

هل يدعم Sesame CSM-1B البث؟

كم تكلف كل مقطع من مقاطع فيديو (Sesame CSM-1B)؟

ما هو الحد الأقصى لطول النص بالنسبة لـ Sesame CSM-1B؟

هل يمكنني تشغيل Sesame CSM-1B في دفعة واحدة؟

هل هناك رابطة بين التطبيقات لـ Sesame CSM-1B؟

هل أحتاج إلى موافقة لاستنساخ صوت مع Sesame CSM-1B؟

ماذا عن الخصوصية مع Sesame CSM-1B؟

هل مخرجات Sesame CSM-1B آمنة للاستخدام التجاري؟

هل يمكنني الحصول على رد إذا فشل Sesame CSM-1B؟

حصل على 10,000 رموز مجانية

انتظر - احصل على 10K رموز مجانية!

تريد المزيد؟