Sesame CSM-1B

Free.ai (self-hosted) · tts · ~500 tokens per clip
~500 tokens per clip

Sesame CSM-1B — Apache 2.0. Conversational Speech Model designed for low-latency, real-time voice. 24 kHz output, sounds best with a short reference-audio context turn. Self-hosted on Free.ai for the /voice/realtime/ tool.

Usare via API
curl -X POST https://api.free.ai/v1/tts/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"csm-1b","text":"hello world"}'
Documentazione Otteni a chiave API

Dumande frequenti

Sesame CSM-1B supporta una larga gamma di lingue. A lista esatta dipenni dû motori; u modulu di sta pàggina accetta ogni testu è u motori renderà in li lingue supportate. Vedi /voice/ pi lu selettore multi-motori cumpletu si ti servi na lingua spicifica.

A maiò parti di i motori di rintrattu usanu l'inglesi americanu neutru per difettu è un accentu adattatu à a regione pi li lingue chi nun sunnu l'inglesi. I motori Premium ponu essiri esposti a varianti di l'accentu - incolla un campione pi cunfruntà.

U supportu SSML varia secondu u motori. I tag di pausa, prosodia è enfasi sò onorati in a maiò parti di i motori premium è in qualchi motori auto-ospitati. U testu simplici funziona sempre — ùn ci vole marcatura.

U streaming TTS è dispunibbili supra li muturi premium via l'API /v1/tts/ cu stream=true. L'interfaccia web di sta pàggina riturnerà u clip cumpletu una vota finitu u rendering.

Sesame CSM-1B gira nantu à e nostre GPU. A generazione tira prima da u vostru pool gratuitu giornalieru. Una volta esauritu, i tokens pagati partenu da $5 → 200,000 tokens. Aproximatamente ~5 tokens per caratteru, minimu 100 per clip.

Finu à 5.000 caratteri à richiesta in l'interfaccia web. Pi pezzi cchiù longhi (audiolibri, capituli interi), usate /voice/audiobook/ ca si sparte e si cudifica automaticamenti, o chiamate l'API in un loop.

Sì — POST una lista di stringhi à /v1/tts/batch/, o usate l'interfaccia di l'area di travagliu à /workspace/ pi catenari TTS in un pipeline cchiù longu (p.e., tradurre → parlà → stitch).

Sì — POST testu a /v1/tts/ cu model="Sesame CSM-1B" (o lu slug di sta pàggina). Ritorna WAV o MP3. Vedi /api/ pi rifirimentu cumpletu + snippets SDK.

Sta pàggina è di testu-a-parla, nun di cloni di vuci - la vuci è lu motori predefinitu. Pi clonari a vuci (caricari un audio di rifirimentu), vidi /voice/clone/, ca vi richiedi di putiri putiri aviri li diritti dâ vuci o di aviri lu cunsensu esplicitu scrittu.

I motori auto-ospitati sò gestiti da GPU di proprietà di Free.ai; nudda lascia i nostri servitori. I motori Premium passanu u testu à i fornituri di mudelli a monte sottu u nostru DPA. Non ci addestramu nantu à i vostri input e non vendimu dati.

Sì — Free.ai cunzenti l'usu cummerciali di l'audiu generatu. A licenza di u muturi (Apache 2.0, MIT, o termini di u venditori) hè mostrata supra è in a pagina di riferimentu di u mudellu; in pratica, chistu signìfica ca li vuci, li pubbricità, i podcast, e l'applicazioni sò tutti in u campu di applicazione.

Sì - i lavori falliti rimborsanu automaticamente à a fonte (pool giornalieru o tokens pagati).Se un rimborsu ùn si mostra u listessu ghjornu, inviate un email à contact@free.ai.

Amuri Free.ai? Dì i vostri amichi!

Vota sta pàggina