VibeVoice

Free.ai (self-hosted) · tts · ~500 tokens për clip · 4.3 nga 3 përdorues të kësaj kategorie
~500 tokens për clip

VibeVoice është a zëri i tekstit në fjalë i ndërtuar nga Microsoft. Më i forti në Long-form audiobooks and multi-speaker podcasts with up to four distinct voices.. Vetë-pritur në Free.ai GPUs — funksionon pa pagesë kundër pool-it të token-it të përditshëm (500 tokens për klip). Licensuar nën MIT — përdorimi komercial i lejuar në Free.ai.

Përdorimi nëpërmjet API
curl -X POST https://api.free.ai/v1/tts/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"vibevoice","text":"hello world"}'
Dokumentimi i API Merr kyçin e API

Pyetje të shpeshta

VibeVoice suporton një gamë të gjerë gjuhësh. Lista e saktë varet nga motori; forma në këtë faqe pranon çdo tekst dhe motori do të paraqesë në gjuhët e tij të suportuara. Shiko /voice/ për zgjedhësin e plotë të motorëve të shumtë nëse ke nevojë për një gjuhë të caktuar.

Shumica e motorëve paracaktojnë një anglisht amerikane neutrale dhe një theks të përshtatshëm për rajonin për gjuhët jo-anglishte. Motorët Premium mund të tregojnë variante të theksit - ngjite një shembull për t'u krahasuar.

Suporti i SSML ndryshon sipas motorit. Tag-ët e pauzës, prozodisë dhe theksimit respektohen në shumicën e motorëve premium dhe në disa prej tyre të vetë-hostuar. Teksti i thjeshtë punon kurdoherë — nuk kërkohet mark-up.

Streaming TTS është në dispozicion në motorët premium nëpërmjet /v1/tts/ API endpoint me stream=true. Interfaqja e përdoruesit web në këtë faqe kthen klipin e plotë sapo të përfundojë paraqitja.

VibeVoice rrjedh në GPU-të tona. Gjenerata e parë tërheq nga pool-i juaj i përditshëm i lirë. Sapo të shkrihet, token-ët e paguar fillojnë nga $5 → 200,000 token-ë. Rreth ~5 token-ë për karakter, minimum 100 për klip.

Deri në 5,000 karaktere për kërkesë në UI web. Për pjesë më të gjata (audiobooks, kapituj të plotë), përdor /voice/audiobook/ që copëton dhe lidh automatikisht, ose thërret API në një cikl.

Po — POST një listë strings në /v1/tts/batch/, ose përdorni hapësirën e punës UI në /workspace/ për të zinxhiruar TTS në një tubacion më të gjatë (p.sh., përktheu → fol → stitch).

Po — POST tekst në /v1/tts/ me model="VibeVoice" (ose slug në këtë faqe). Kthen WAV ose MP3. Shiko /api/ për referencë të plotë + fragmente SDK.

Kjo faqe është tekst-në-folje, jo klonim zëri — zëri është i prezgjedhur nga motori. Për klonimin e zërit (shkarkimin e një audio referimi), shiko /voice/clone/, që kërkon që ju ose të posedoni të drejtat e zërit ose të keni pëlqimin e shkruar të qartë.

Motorët e vetë-hostuar funksionojnë në GPU-të e zotëruara nga Free.ai; asgjë nuk largohet nga serverat tanë. Motorët Premium i kalojnë tekstet tek furnizuesit e modeleve të larta nën DPA-në tonë. Ne nuk trajnojmë në të dhënat tuaja dhe nuk i shesim të dhënat.

Po — Free.ai lejon përdorimin komercial të audios së gjeneruar. Liçenca e motorit (Apache 2.0, MIT, ose kushtet e shitësit) është e shfaqur sipër dhe në faqen e modelit të referencës; në praktikë kjo do të thotë se zërat, reklamat, podcast-et dhe aplikacionet janë të gjitha brenda kufijve.

Po — detyrat e dështuara kthehen automatikisht tek burimi (pool i përditshëm ose token të paguar). Nëse një kthim nuk shfaqet të njëjtën ditë, dërgo email tek contact@free.ai.

Të pëlqen Free.ai?

Vlerësoni këtë faqe