Modelldetails
Über
Dia Voice Clone is a KI-Modell. Durch externe Modelle geleitet — ~{tpm__tokens} pro Gebrauch (50% Markup gegenüber den vorgelagerten Kosten).
Verwendung über API
curl https://api.free.ai/v1/chat/ \
-H "Authorization: Bearer YOUR_KEY" \
-d '{"model":"premium/dia-tts/voice-clone"}'
Vergleich
FAQ
Dia Voice Clone unterstützt eine Vielzahl von Sprachen. Die genaue Liste hängt von der Engine ab; das Formular auf dieser Seite akzeptiert jeden Text und die Engine wird in den unterstützten Sprachen rendern. Siehe /voice/ für den vollständigen Mehr-Engine-Picker, wenn Sie eine bestimmte Sprache benötigen.
Die meisten Motoren rendern standardmäßig neutral-amerikanisches Englisch und einen regionsgerechten Akzent für nicht-englische Sprachen. Premium-Motoren können Akzentvarianten aufdecken – fügen Sie ein Beispiel zum Vergleich ein.
SSML-Unterstützung variiert je nach Motor. Pause, Prosody und Betonung Tags werden auf den meisten Premium-Motoren und auf ein paar selbst gehosteten geehrt. Klarer Text funktioniert immer – kein Markup erforderlich.
Streaming TTS ist auf Premium-Engines über den /v1/tts/ API-Endpunkt mit stream=true verfügbar. Die Web-UI auf dieser Seite gibt den kompletten Clip zurück, sobald das Rendering beendet ist.
Dia Voice Clone ist eine Premium-TTS-Engine. Kostenskalen mit Zeichenzahl – typischerweise ~30 Token pro Zeichen. $1 kauft 750.000 Token, so dass ein $5-Pack zehntausende Zeichen abdeckt.
Bis zu 5.000 Zeichen pro Anfrage auf der Weboberfläche. Für längere Stücke (Audiobücher, ganze Kapitel) verwenden Sie /voice/audiobook/ welches automatisch klappt und sticht, oder rufen Sie die API in einer Schleife auf.
Ja — POST eine Liste von Strings in /v1/tts/batch/, oder verwenden Sie die Workspace Benutzeroberfläche in /workspace/, um TTS in eine längere Pipeline zu ketten (z.B. übersetzen → sprechen → Stich).
Ja — POST-Text in /v1/tts/ mit model="Dia Voice Clone" (oder die Schnecke auf dieser Seite). Gibt WAV oder MP3 zurück. Siehe /api/ für vollständige Referenz + SDK-Schnipsel.
Diese Seite ist text-to-speech, nicht voice cloning — die Stimme ist die Standardeinstellung des Motors. Zum Stimmenklonen (Aufladen eines Referenz-Audios) siehe /voice/clone/, was erfordert, dass Sie entweder die Sprachrechte besitzen oder eine ausdrückliche schriftliche Zustimmung haben.
Selbst gehostete Motoren laufen auf Free.ai-eigenen GPUs; nichts verlässt unsere Server. Premium-Engines übergeben Text an vorgelagerte Modellanbieter unter unserem DPA. Wir trainieren nicht auf Ihre Eingänge und verkaufen keine Daten.
Ja — Free.ai gewährt kommerzielle Nutzung von generiertem Audio. Die zugrunde liegende Lizenz der Engine (Apache 2.0, MIT, oder Verkäuferbegriffe) wird oben und auf der Modellreferenzseite angezeigt; in der Praxis bedeutet dies Voiceovers, Anzeigen, Podcasts und Apps sind alle in-scope.
Ja — fehlgeschlagene Jobs automatische Rückerstattung an die Quelle (täglich Pool oder bezahlte Tokens). Wenn eine Rückerstattung nicht am selben Tag angezeigt wird, email contact@free.ai.