OpenAI: GPT Audio
OpenAI
·
tts
·
~4781 Token pro clip
·
4.3
vun 3 Benotzer an dëser Kategorie
D'Fréijoer ass d'Joer vum Fréijoer (fr.: printemps) an d'Wanter d'Joer vum Fréijoer (fr.: hiver). D'Spill ass op 3D-Grafiken baséiert, déi mat 50% (oder 100% wann et méi wéi 500 Säiten sinn) eropgeluede kënne ginn.
Iwwer API benotzen
curl -X POST https://api.free.ai/v1/tts/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"openai/gpt-audio","text":"hello world"}'
Dokumentatioun
API Schlëssel
Häufig gestallte Froen
OpenAI: GPT Audio ënnerstëtzt eng grouss Zuel vu Sproochen. D'exakt Lëscht hänkt vum Motor of; d'Form op dëser Säit akzeptéiert all Text an de Motor wäert an de ugepasste Sproochen renderen. Kuckt /voice/ fir d'vollstänneg Multi-Motor Auswiel wann Dir eng spezifesch Sprooch braucht.
Standardmëttel fir d'Rendering sinn neutralt amerikanescht Englesch an e regional passenden Akzent fir net-englisch Sproochen. Premium-Mëttel kënnen Akzentvarianten ausweisen - fügt e Beispill fir ze vergläichen.
D'SSML-Unterstützung ass jee no Motor ënnerschiddlech. Pause, Prosody an Emphasis-Tags ginn op de meeschte Premium-Motore respektéiert an op e puer selwer gehosteten. Plaintext funktionnéiert ëmmer - keng Markup erfuerderlech.
D'Streaming TTS ass op Premium-Enginen iwwer den /v1/tts/ API Endpunkt mat stream=true verfügbar. D'Web-Benotzerinterface op dëser Säit gëtt de ganzen Clip zréck, wann d'Rendering ofgeschloss ass.
D'Präisser variéieren no der Zuel vun de Zeichen, normalerweis sinn et 30 Token pro Zeichen. $1 kaaft 750.000 Token, also deckt e Pack vu $5 zéngdausende vu Zeichen.
Bis zu 5.000 Zeichen pro Ufro op der Web-UI. Fir méi laang Stécker (Hörbücher, ganz Kapitelen), benotzt /voice/audiobook/, dat automatesch Stécker a Stécker mécht, oder rufft d'API an enger Schleif op.
Et gëtt och eng aner Method, déi d'Sprooch an d'Sproochegrupp (oder d'Sproochegrupp an d'Sproochegrupp) op der Basis vun der Sproochegrupp (oder der Sproochegrupp) op der Basis vun der Sproochegrupp (oder der Sproochegrupp) opdeelt.
Ja — POST Text op /v1/tts/ mat model="OpenAI: GPT Audio" (oder dem Slug op dëser Säit). Gitt WAV oder MP3 zréck. Kuckt /api/ fir déi vollstänneg Referenz + SDK-Snippets.
Dës Säit ass Text-zu-Sprooch, net Sproochklonen - d'Stëmm ass d'Standard-Engine. Fir Sproochklonen (eng Referenz-Audio-Datei erofzelueden), kuckt /voice/clone/, wat erfuerdert datt Dir entweder d'Stëmmrechter hutt oder eng explizit schreiwesch Zoustëmmung hutt.
Self- hosted Engines lafen op Free.ai- owned GPUs; näischt verléisst eis Server. Premium Engines ginn Text un Upstream Modell Provider ënner eisem DPA. Mir trainéieren net op Är Inputs an verkafen keng Donnéeën.
Ja — Free.ai erlaabt kommerziell Benotzung vum generéierten Audio. D'Ënnerlizenz vun der Engine (Apache 2.0, MIT oder Verkeeferbedingungen) gëtt uewen an op der Modellreferenzsäit gewisen; an der Praxis heescht dat, datt Voiceovers, Annoncen, Podcasts an Apps all am Ëmfang sinn.
Ja — gescheitert Aufgaben automatesch un d'Quell zréckginn (daglicher Pool oder bezuelte Token). Wann eng Erhuelung net den selwechten Dag erschéngt, schéckt eng E-Mail un contact@free.ai.