Sesame CSM-1B
Free.ai (self-hosted)
·
tts
·
~500 tocynnau y eiliad clip
Sesame CSM-1B — Apache 2.0. Conversational Speech Model designed for low-latency, real-time voice. 24 kHz output, sounds best with a short reference-audio context turn. Self-hosted on Free.ai for the /voice/realtime/ tool.
Defnyddio trwy API
curl -X POST https://api.free.ai/v1/tts/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"csm-1b","text":"hello world"}'
Dogfennaeth API
Nôl Allwedd API
Cwestiynau a Ofynnir yn Aml
Mae Sesame CSM-1B yn cynnal ystod eang o ieithoedd. Mae'r rhestr gywir yn dibynnu ar yr injan; mae'r ffurflen ar y dudalen hon yn derbyn unrhyw destun a bydd yr injan yn arlunio mewn ei ieithoedd a gynhelir. Gweler /voice/ am y dewisydd aml-beiriant llawn os oes angen iaith benodol arnoch.
Mae'r rhan fwyaf o beirianwyr yn lunio Saesneg Americanaidd canolog yn rhagosodedig a chaneuon addas i'r ardal ar gyfer ieithoedd nad ydynt yn Saesneg. Gall beirianwyr premiwm arddangos amrywiolion caneuon - gludwch enghraifft i'w chymharu.
Mae cynhaliaeth SSML yn amrywio yn ôl peiriant. Mae tagiau seibio, prosod, ac amlygu yn cael eu cydnabod ar y rhan fwyaf o beirianyddion premiwm ac ar rai hunanghostedig. Mae testun plaen yn gweithio o hyd — nid oes angen marcio.
Mae TTS llif ar gael ar beiriannau premiwm drwy'r diweddbwyntiau API /v1/tts/ gyda stream=true. Mae'r rhyngwyneb defnyddiwr gwe ar y dudalen hon yn dychwelyd y clip llawn pan orffennir y lluniadu.
Mae Sesame CSM-1B yn rhedeg ar ein GPUs ein hunain. Mae'r genhedlaeth yn tynnu o'ch cronfa rhad ac am ddim bob dydd yn gyntaf. Pan fydd yn ddiflannu, mae tocynnau a brynwyd yn dechrau ar $5 → 200,000 o tocynnau. Yn aml ~5 tocyn am bob nod, o leiaf 100 am bob clip.
hyd at 5,000 o nodau ar gyfer pob cais ar y rhyngwyneb defnyddiwr gwe. Ar gyfer darnau hirach (llyfr sain, pennod gyfan), defnyddiwch /voice/audiobook/ sy'n torri a sticio'n awtomatig, neu ffoniwch yr API mewn cylch.
Ie — POST rhestr o linynnau i /v1/tts/batch/, neu defnyddiwch y rhyngwyneb defnyddiwr gweithfan yn /workspace/ i gysgodi TTS i mewn i pibellau hirach (e.e., cyfieithu → siarad → stitch).
Ie — POST testun i /v1/tts/ gyda model="Sesame CSM-1B" (neu'r slug ar y dudalen hon). Dychwelyd WAV neu MP3. Gweler /api/ am gyfeiriad llawn + darnau SDK.
Testun-i-ganu yw'r dudalen hon, nid clonio llais - y llais yw rhagosodiad y peiriant. Am glonio llais (lwytho sain cyfeirio i fyny), gweler /voice/clone/, sy'n gofyn i chi fod yn berchen ar hawliau'r llais neu fod gennych ganiatâd ysgrifenedig clir.
Rheda peiriannau hunan-gartrefedig ar GPUau Free.ai-ei-berchen; nid yw dim yn gadael ein gweinyddion. Mae peiriannau premiwm yn pasio testun i ddarparwyr modelau uwchlaw ein DPA. Ni ydym yn hyfforddi ar eich mewnbwn ac ni werthwn ddata.
Ie — Free.ai yn caniatáu defnydd masnachol o sain a gynhyrchir. Mae trwydded sylfaenol yr injan (Apache 2.0, MIT, neu delerau'r gwerthwr) yn cael ei dangos uchod ac ar dudalen cyfeirio'r model; yn ymarferol mae hyn yn golygu bod y geiriau, hysbysebion, podiau, a rhaglenni i gyd yn rhan o'r amrediad.
Ie — ad-dalu tasgau methu'n awtomatig i'r ffynhonnell (pool diwrnod neu tocynnau talu). Os nad yw ad-daliad yn ymddangos yr un diwrnod, anfonwch e-bost at contact@free.ai.