Sesame CSM-1B
Free.ai (self-hosted)
·
tts
·
~500 жетони на clip
Sesame CSM-1B — Apache 2.0. Конверзационен модел за говор, предназначен за нископостоянство, реално време глас. 24 kHz изход, звучи най-добре с къс референтен-аудио контекст завъртане. Самоу домакин на Free.ai за /voice/realtime/tool.
Използване чрез API
curl -X POST https://api.free.ai/v1/tts/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"csm-1b","text":"hello world"}'
API документация
Вземете API ключ
Често задавани въпроси
Sesame CSM-1B поддържа широка гама от езиците. Точният списък зависи от двигателя; форматът на тази страница приема всеки текст и двигателят ще излъчи на поддържаните си езици. Виж /voice/ за пълния многодвигателен избирател, ако се нуждаете от специален език.
Повечето двигатели правят неутрален американски английски по подразбиране и регион-подходящ акцент за неанглийски език. Премиум двигатели могат да изложат варианти на акцента — поставете проба, за да се сравни.
Поддръжката на SSML варира от двигателя. Пауза, прозодия и акцент се отчитат на повечето премиумни двигатели и на няколко самостоятелни. Обикновеният текст винаги работи — не се изисква маркиране.
Преминаването на TTS е на разположение на премиум двигатели през точката /v1/tts/ API със stream=true. Web UI на тази страница връща пълния клип след преработка.
Sesame CSM-1B работи на собствените си GPUs. Генериране извлича от вашия дневен свободен басейн първо. След изчерпани, платени жетони започват с $5 → 200 000 жетони. Грубо ~5 жетони на символ, минимум 100 на клип.
До 5000 символа на запитване на уеб компютъра. За по-дълги парчета (аудиокниги, пълни глави), използвайте /voice/audiobook / които парчета и шевове автоматично, или се обадите на API в кръг.
Да — ПОСТ списък на струните на /v1/tts/batch/, или използвайте работния UI в /workspace/ за верига TTS в по-дълъг тръбопровод (напр., превежда → говори → шев).
Да — POST текст на /v1/tts/ с модел="Sesame CSM-1B" (или куршума на тази страница). Връща WAV или MP3. Виж /api/ за пълно позоваване + SDK rippes.
Тази страница е текст-то-спеч, а не клониране на глас — гласът е по подразбиране на двигателя. За клониране на глас (зареждане на референтен звук), вижте /voice/klone /, което изисква или да притежавате правата на глас или да имате изрично писмено съгласие.
Самоуправляеми двигатели работят на Free.ai GPU, нищо не напуска сървърите ни. Премиум двигатели предават текст на доставчиците на моделите нагоре по нашия DPA. Ние не тренираме на входящите ви данни и не продаваме данни.
Да — Free.ai отпуска търговска употреба на генериран аудио. Основният лиценз на двигателя (Apache 2.0, MIT, или условията на продавача) е показан по-горе и на референтната страница на модела; на практика това означава гласово преминаване, реклами, подкасти и приложения са всички в скептура.
Да — провалени работни места за автовъзстановяване на източника (дневен басейн или платени жетони). Ако възстановяването не се появи в същия ден, e-mail contact@free.ai.