Sesame CSM-1B
Free.ai (self-hosted)
·
tts
·
~500 біт clip
Sesame CSM-1B — Apache 2.0. Conversational Speech Model designed for low-latency, real-time voice. 24 kHz output, sounds best with a short reference-audio context turn. Self-hosted on Free.ai for the /voice/realtime/ tool.
Выкарыстаць праз API
curl -X POST https://api.free.ai/v1/tts/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"csm-1b","text":"hello world"}'
Дакументацыя API
Атрымаць ключ API
Часта задаваемыя пытанні
Sesame CSM-1B падтрымлівае шырокі спектр моў. Дакладны спіс залежыць ад рухавіка; форма на гэтай старонцы прымае любы тэкст, і рухавік будзе рэндаваць на падтрымліваемых мовах. Глядзіце / voice / для поўнага выбіральніка шматрухавікоў, калі вам патрэбна пэўная мова.
Большасць рухавікоў па змаўчанні паказваюць нейтральную амерыканскую англійскую і рэгіянальныя акцэнты для моў, якія не з' яўляюцца англійскімі. Рухавік Premium можа паказваць варыянты акцэнтаў - устаўце прыклад для параўнання.
Падтрымка SSML розная ў залежнасці ад рухавіка. Тэгі pause, prosody і emphasis падтрымліваюцца ў большасці рухавікоў premium і некаторых з іх. Просты тэкст заўсёды працуе - не патрабуецца ніякая разметка.
Праграма TTS даступная на машынах premium праз канечную кропку API / v1/ tts/ з параметрам stream=true. Веб- інтэрфейс на гэтай старонцы вяртае поўны фільм пасля заканчэння рэндрынгу.
Sesame CSM-1B працуе на нашых уласных GPU. Спачатку генеруецца з вашага штодзённага бясплатнага фонду. Пасля высыхання, плацежныя знакі пачынаюцца ад $5 → 200,000 знакаў. Прыблізна ~5 знакаў на знак, мінімум 100 на кліп.
Да 5000 знакаў на запыт у інтэрфейсе. Для доўгіх частак (аўдыёкніг, цэлых раздзелаў) выкарыстоўвайце /voice/audiobook/, які аўтаматычна разрэзаў і звязаў, або выклікайце API ў цыкле.
Так — POST спіс радкоў у /v1/tts/batch/, або выкарыстоўвайце інтэрфейс рабочай прасторы ў /workspace/, каб злучыць TTS у больш доўгі канвеер (напрыклад, translate → speak → stitch).
Так — POST тэкст у / v1/ tts / з model=" Sesame CSM-1B "(або slug на гэтай старонцы). Верне WAV або MP3. Глядзіце / api / для поўнай спасылкі + SDK фрагменты.
Гэтая старонка з' яўляецца тэкстава- вымаўленнем, а не клонаваннем голасу - голас па змаўчанні. Для клонавання голасу (загрузка аўдыё- файла) глядзіце / voice/ clone /, для чаго вам трэба альбо мець права на голас, альбо выразнае пісьмовае дазвол.
Self-hosted engines run on Free.ai-owned GPUs; nothing leaves our servers. Premium engines pass text to upstream model providers under our DPA. We do not train on your inputs and do not sell data.
Так — Free.ai дазваляе выкарыстанне генераванага гуку ў камерцыйных мэтах. Ліцэнзія рухавіка (Apache 2. 0, MIT або ўмовы вытворцы) паказаная вышэй і на старонцы з даведкай па мадэлі; на практыцы гэта азначае, што ўключаны гукавыя запісы, рэкламы, падкасты і праграмы.
Так — нерэалізаваныя заданні аўтаматычна вяртаюцца ў крыніцу (дзённы пул або аплачаныя знакі). Калі вяртанне не адбываецца ў той жа дзень, пішыце на contact@ free. ai.