Sesame CSM-1B

Free.ai (self-hosted) · tts · ~500 Token je clip · 4.3 von 3 Benutzer dieser Kategorie
~500 Token je clip

Sesame CSM-1B is a Text-zu-Sprechen-Stimme built by Sesame. Am stärksten bei Real-time voice agents, conversational AI, streaming TTS where time-to-first-audio matters more than studio-perfect reads.. Selbstgehostet auf Free.ai GPUs — läuft kostenlos gegen Ihren täglichen Tokenpool ({tpm__tokens} pro Clip). Veröffentlicht unter Apache 2.0 — kommerzielle Nutzung erlaubt auf Free.ai.

Verwendung über API
curl -X POST https://api.free.ai/v1/tts/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"csm-1b","text":"hello world"}'
API-Dokumentation API-Schlüssel abrufen

Häufig gestellte Fragen

Sesame CSM-1B unterstützt eine Vielzahl von Sprachen. Die genaue Liste hängt von der Engine ab; das Formular auf dieser Seite akzeptiert jeden Text und die Engine wird in den unterstützten Sprachen rendern. Siehe /voice/ für den vollständigen Mehr-Engine-Picker, wenn Sie eine bestimmte Sprache benötigen.

Die meisten Motoren rendern standardmäßig neutral-amerikanisches Englisch und einen regionsgerechten Akzent für nicht-englische Sprachen. Premium-Motoren können Akzentvarianten aufdecken – fügen Sie ein Beispiel zum Vergleich ein.

SSML-Unterstützung variiert je nach Motor. Pause, Prosody und Betonung Tags werden auf den meisten Premium-Motoren und auf ein paar selbst gehosteten geehrt. Klarer Text funktioniert immer – kein Markup erforderlich.

Streaming TTS ist auf Premium-Engines über den /v1/tts/ API-Endpunkt mit stream=true verfügbar. Die Web-UI auf dieser Seite gibt den kompletten Clip zurück, sobald das Rendering beendet ist.

Sesame CSM-1B läuft auf unseren eigenen GPUs. Generation zieht zuerst aus Ihrem täglichen kostenlosen Pool. Einmal erschöpft, beginnen bezahlte Token bei $5 → 200.000 Token. Ungefähr ~5 Token pro Charakter, mindestens 100 pro Clip.

Bis zu 5.000 Zeichen pro Anfrage auf der Weboberfläche. Für längere Stücke (Audiobücher, ganze Kapitel) verwenden Sie /voice/audiobook/ welches automatisch klappt und sticht, oder rufen Sie die API in einer Schleife auf.

Ja — POST eine Liste von Strings in /v1/tts/batch/, oder verwenden Sie die Workspace Benutzeroberfläche in /workspace/, um TTS in eine längere Pipeline zu ketten (z.B. übersetzen → sprechen → Stich).

Ja — POST-Text in /v1/tts/ mit model="Sesame CSM-1B" (oder die Schnecke auf dieser Seite). Gibt WAV oder MP3 zurück. Siehe /api/ für vollständige Referenz + SDK-Schnipsel.

Diese Seite ist text-to-speech, nicht voice cloning — die Stimme ist die Standardeinstellung des Motors. Zum Stimmenklonen (Aufladen eines Referenz-Audios) siehe /voice/clone/, was erfordert, dass Sie entweder die Sprachrechte besitzen oder eine ausdrückliche schriftliche Zustimmung haben.

Selbst gehostete Motoren laufen auf Free.ai-eigenen GPUs; nichts verlässt unsere Server. Premium-Engines übergeben Text an vorgelagerte Modellanbieter unter unserem DPA. Wir trainieren nicht auf Ihre Eingänge und verkaufen keine Daten.

Ja — Free.ai gewährt kommerzielle Nutzung von generiertem Audio. Die zugrunde liegende Lizenz der Engine (Apache 2.0, MIT, oder Verkäuferbegriffe) wird oben und auf der Modellreferenzseite angezeigt; in der Praxis bedeutet dies Voiceovers, Anzeigen, Podcasts und Apps sind alle in-scope.

Ja — fehlgeschlagene Jobs automatische Rückerstattung an die Quelle (täglich Pool oder bezahlte Tokens). Wenn eine Rückerstattung nicht am selben Tag angezeigt wird, email contact@free.ai.

Love this tool? Share it!

Bewerten Sie diese Seite