Cartesia Sonic 3 (real-time)
Free.ai
·
tts
·
~500 token per clip
·
4.3
da 3 utenti di questa categoria
Cartesia Sonic 3 (real-time) è a voce da testo a parola. Instradato attraverso modelli esterni Tokens 500 per clip (con un markup del 50% rispetto al costo upstream).
Utilizzare tramite API
curl -X POST https://api.free.ai/v1/tts/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/cartesia/sonic-3","text":"hello world"}'
Documentazione API
Ottieni la chiave API
Domande frequenti
Cartesia Sonic 3 (real-time) supporta una vasta gamma di lingue. L'elenco esatto dipende dal motore; il form su questa pagina accetta qualsiasi testo e il motore renderà nelle sue lingue supportate. Vedere /voice/ per il picker multimotore completo se hai bisogno di una lingua specifica.
La maggior parte dei motori rende l'inglese neutro-americano per impostazione predefinita e un accento adatto alla regione per le lingue non inglesi. I motori premium possono esporre le varianti di accento incollare un campione da confrontare.
Supporto SSML varia a seconda del motore. Pausa, prosodia, e tag di enfasi sono onorati sulla maggior parte dei motori premium e su alcuni auto-ospitato. Testo semplice funziona sempre non è richiesto alcun markup.
Streaming TTS è disponibile su motori premium tramite l'endpoint /v1/tts/ API con stream=true. L'interfaccia utente web di questa pagina restituisce il clip completo una volta terminato il rendering.
Cartesia Sonic 3 (real-time) è un motore TTS premium. Le scale di costo con il numero di caratteri sono tipicamente ~30 gettoni per personaggio. $1 compra 750.000 gettoni, quindi un pacchetto da $5 copre decine di migliaia di caratteri.
Fino a 5.000 caratteri per richiesta nell'interfaccia utente web. Per pezzi più lunghi (audiolibri, capitoli completi), usa /voice/audiobook/ che taglia e cuci automaticamente, o chiama l'API in un loop.
Sì, POST un elenco di stringhe in /v1/tts/batch/, o utilizzare l'interfaccia utente dello spazio di lavoro in /workspace/ per incatenare TTS in una pipeline più lunga (ad esempio, tradurre → parlare → punto).
Sì testo POST a /v1/tts/ con model="Cartesia Sonic 3 (real-time)" (o il proiettile di questa pagina). Restituisce WAV o MP3. Vedere /api/ per riferimento completo + snippet SDK.
Questa pagina è testo-a-parola, non clonare la voce. La voce è di default del motore. Per clonare la voce (caricare un audio di riferimento), vedere /voice/clone/, che richiede di possedere i diritti di voce o avere esplicito consenso scritto.
I motori auto-ospitati funzionano su GPU di proprietà Free.ai; nulla lascia i nostri server. I motori Premium passano testo ai fornitori di modelli a monte sotto il nostro DPA. Non ci alleniamo sui vostri input e non vendono dati.
Sì Free.ai concede l'uso commerciale dell'audio generato. La licenza di base del motore (Apache 2.0, MIT, o termini del fornitore) è mostrata sopra e sulla pagina di riferimento del modello; in pratica ciò significa che i vocaboli, gli annunci, i podcast e le applicazioni sono tutti in-scope.
Sì, i lavori falliti auto-rimborso alla fonte (piscina giornaliera o gettoni pagati). Se un rimborso non viene visualizzato lo stesso giorno, e-mail contact@free.ai.