Sesame CSM-1B

Free.ai (self-hosted) · tts · ~500 tocynnau y eiliad clip
~500 tocynnau y eiliad clip

Sesame CSM-1B — Apache 2.0. Conversational Speech Model designed for low-latency, real-time voice. 24 kHz output, sounds best with a short reference-audio context turn. Self-hosted on Free.ai for the /voice/realtime/ tool.

Defnyddio trwy API
curl -X POST https://api.free.ai/v1/tts/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"csm-1b","text":"hello world"}'
Dogfennaeth API Nôl Allwedd API

Cwestiynau a Ofynnir yn Aml

Mae Sesame CSM-1B yn cynnal ystod eang o ieithoedd. Mae'r rhestr gywir yn dibynnu ar yr injan; mae'r ffurflen ar y dudalen hon yn derbyn unrhyw destun a bydd yr injan yn arlunio mewn ei ieithoedd a gynhelir. Gweler /voice/ am y dewisydd aml-beiriant llawn os oes angen iaith benodol arnoch.

Mae'r rhan fwyaf o beirianwyr yn lunio Saesneg Americanaidd canolog yn rhagosodedig a chaneuon addas i'r ardal ar gyfer ieithoedd nad ydynt yn Saesneg. Gall beirianwyr premiwm arddangos amrywiolion caneuon - gludwch enghraifft i'w chymharu.

Mae cynhaliaeth SSML yn amrywio yn ôl peiriant. Mae tagiau seibio, prosod, ac amlygu yn cael eu cydnabod ar y rhan fwyaf o beirianyddion premiwm ac ar rai hunanghostedig. Mae testun plaen yn gweithio o hyd — nid oes angen marcio.

Mae TTS llif ar gael ar beiriannau premiwm drwy'r diweddbwyntiau API /v1/tts/ gyda stream=true. Mae'r rhyngwyneb defnyddiwr gwe ar y dudalen hon yn dychwelyd y clip llawn pan orffennir y lluniadu.

Mae Sesame CSM-1B yn rhedeg ar ein GPUs ein hunain. Mae'r genhedlaeth yn tynnu o'ch cronfa rhad ac am ddim bob dydd yn gyntaf. Pan fydd yn ddiflannu, mae tocynnau a brynwyd yn dechrau ar $5 → 200,000 o tocynnau. Yn aml ~5 tocyn am bob nod, o leiaf 100 am bob clip.

hyd at 5,000 o nodau ar gyfer pob cais ar y rhyngwyneb defnyddiwr gwe. Ar gyfer darnau hirach (llyfr sain, pennod gyfan), defnyddiwch /voice/audiobook/ sy'n torri a sticio'n awtomatig, neu ffoniwch yr API mewn cylch.

Ie — POST rhestr o linynnau i /v1/tts/batch/, neu defnyddiwch y rhyngwyneb defnyddiwr gweithfan yn /workspace/ i gysgodi TTS i mewn i pibellau hirach (e.e., cyfieithu → siarad → stitch).

Ie — POST testun i /v1/tts/ gyda model="Sesame CSM-1B" (neu'r slug ar y dudalen hon). Dychwelyd WAV neu MP3. Gweler /api/ am gyfeiriad llawn + darnau SDK.

Testun-i-ganu yw'r dudalen hon, nid clonio llais - y llais yw rhagosodiad y peiriant. Am glonio llais (lwytho sain cyfeirio i fyny), gweler /voice/clone/, sy'n gofyn i chi fod yn berchen ar hawliau'r llais neu fod gennych ganiatâd ysgrifenedig clir.

Rheda peiriannau hunan-gartrefedig ar GPUau Free.ai-ei-berchen; nid yw dim yn gadael ein gweinyddion. Mae peiriannau premiwm yn pasio testun i ddarparwyr modelau uwchlaw ein DPA. Ni ydym yn hyfforddi ar eich mewnbwn ac ni werthwn ddata.

Ie — Free.ai yn caniatáu defnydd masnachol o sain a gynhyrchir. Mae trwydded sylfaenol yr injan (Apache 2.0, MIT, neu delerau'r gwerthwr) yn cael ei dangos uchod ac ar dudalen cyfeirio'r model; yn ymarferol mae hyn yn golygu bod y geiriau, hysbysebion, podiau, a rhaglenni i gyd yn rhan o'r amrediad.

Ie — ad-dalu tasgau methu'n awtomatig i'r ffynhonnell (pool diwrnod neu tocynnau talu). Os nad yw ad-daliad yn ymddangos yr un diwrnod, anfonwch e-bost at contact@free.ai.

Hoffwch Free.ai? Meddwl am eich ffrindiau!

Graddio'r dudalen hon