Sesame CSM-1B

Free.ai (self-hosted) · tts · ~500 біт clip
~500 біт clip

Sesame CSM-1B — Apache 2.0. Conversational Speech Model designed for low-latency, real-time voice. 24 kHz output, sounds best with a short reference-audio context turn. Self-hosted on Free.ai for the /voice/realtime/ tool.

Выкарыстаць праз API
curl -X POST https://api.free.ai/v1/tts/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"csm-1b","text":"hello world"}'
Дакументацыя API Атрымаць ключ API

Часта задаваемыя пытанні

Sesame CSM-1B падтрымлівае шырокі спектр моў. Дакладны спіс залежыць ад рухавіка; форма на гэтай старонцы прымае любы тэкст, і рухавік будзе рэндаваць на падтрымліваемых мовах. Глядзіце / voice / для поўнага выбіральніка шматрухавікоў, калі вам патрэбна пэўная мова.

Большасць рухавікоў па змаўчанні паказваюць нейтральную амерыканскую англійскую і рэгіянальныя акцэнты для моў, якія не з' яўляюцца англійскімі. Рухавік Premium можа паказваць варыянты акцэнтаў - устаўце прыклад для параўнання.

Падтрымка SSML розная ў залежнасці ад рухавіка. Тэгі pause, prosody і emphasis падтрымліваюцца ў большасці рухавікоў premium і некаторых з іх. Просты тэкст заўсёды працуе - не патрабуецца ніякая разметка.

Праграма TTS даступная на машынах premium праз канечную кропку API / v1/ tts/ з параметрам stream=true. Веб- інтэрфейс на гэтай старонцы вяртае поўны фільм пасля заканчэння рэндрынгу.

Sesame CSM-1B працуе на нашых уласных GPU. Спачатку генеруецца з вашага штодзённага бясплатнага фонду. Пасля высыхання, плацежныя знакі пачынаюцца ад $5 → 200,000 знакаў. Прыблізна ~5 знакаў на знак, мінімум 100 на кліп.

Да 5000 знакаў на запыт у інтэрфейсе. Для доўгіх частак (аўдыёкніг, цэлых раздзелаў) выкарыстоўвайце /voice/audiobook/, які аўтаматычна разрэзаў і звязаў, або выклікайце API ў цыкле.

Так — POST спіс радкоў у /v1/tts/batch/, або выкарыстоўвайце інтэрфейс рабочай прасторы ў /workspace/, каб злучыць TTS у больш доўгі канвеер (напрыклад, translate → speak → stitch).

Так — POST тэкст у / v1/ tts / з model=" Sesame CSM-1B "(або slug на гэтай старонцы). Верне WAV або MP3. Глядзіце / api / для поўнай спасылкі + SDK фрагменты.

Гэтая старонка з' яўляецца тэкстава- вымаўленнем, а не клонаваннем голасу - голас па змаўчанні. Для клонавання голасу (загрузка аўдыё- файла) глядзіце / voice/ clone /, для чаго вам трэба альбо мець права на голас, альбо выразнае пісьмовае дазвол.

Self-hosted engines run on Free.ai-owned GPUs; nothing leaves our servers. Premium engines pass text to upstream model providers under our DPA. We do not train on your inputs and do not sell data.

Так — Free.ai дазваляе выкарыстанне генераванага гуку ў камерцыйных мэтах. Ліцэнзія рухавіка (Apache 2. 0, MIT або ўмовы вытворцы) паказаная вышэй і на старонцы з даведкай па мадэлі; на практыцы гэта азначае, што ўключаны гукавыя запісы, рэкламы, падкасты і праграмы.

Так — нерэалізаваныя заданні аўтаматычна вяртаюцца ў крыніцу (дзённы пул або аплачаныя знакі). Калі вяртанне не адбываецца ў той жа дзень, пішыце на contact@ free. ai.

Любіце Free.ai? Раскажыце сваім сябрам!

Ацэнка гэтай старонкі