OpenAI: GPT-4o Audio

OpenAI · tts · ~4781 znaki na clip · 4.3 od 3 Użytkownicy tej kategorii

Tekst do wypowiedzenia

Głos

Prędkość

~4781 znaki na clip

Albo spróbujmy wolnych samodomówców. Kokoro TTS → — nie jest potrzeba rejestracji

__FREEAI_PH_Lead{article____freeai_ph_kategoria} zbudowana przez {prowider}. Skierowane przez modele zewnętrzne — ~4,781 tokeny na klip (50% markingu nad kosztami strumienia).

Użyj przez API

curl -X POST https://api.free.ai/v1/tts/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"openai/gpt-4o-audio-preview","text":"hello world"}'

Dokumentacja API Pobierz klucz API

Często zadawane pytania

OpenAI: GPT-4o Audio obsługuje szeroki zakres języków. Dokładna lista zależy od silnika; formularz na tej stronie akceptuje dowolny tekst i silnik będzie wyświetlany w obsługiwanych językach. Zobacz /voice/ dla pełnego wybieracza wielosilnika, jeśli potrzebujesz określonego języka.

Większość silników czyni neutralny amerykański angielski domyślnie i odpowiedni akcent regionowy dla języków nieangielskich. Motory premium mogą wystawić warianty akcentu — wklej próbkę do porównania.

Wsparcie SSML różni się w zależności od silnika. Pauza, prozodia i znaczniki akcentu są respektowane na większości silników premium i na kilku samorządzonych. Prosty tekst zawsze działa – nie wymaga się znaczenia.

Streaming TTS jest dostępny na silnikach premium za pomocą punktu końcowego /v1/tts/ API z stream=true. Web interfejs na tej stronie zwraca pełny klip po wykończeniu.

OpenAI: GPT-4o Audio jest silnikiem premium TTS. Kosztowe wagi z liczbą znaków — zazwyczaj ~30 tokenów na znak. $1 kupuje 750,000 tokenów, więc pakiet $5 pokrywa dziesiątki tysięcy znaków.

Do 5000 znaków na żądanie w interfejsie internetowym. Dla dłuższych kawałków (Audiobooks, pełne rozdziały), użyj /voice/audiobook / które kawałki i szwy automatycznie, lub wywołaj API w pętli.

Tak — POST lista strun do /v1/tts/batch /, lub użyć interfejsu roboczego w /pracownik / do łańcucha TTS do dłuższego rurociągu (np. przetłumaczenie → mów → szw).

Tak – tekst POST do /v1/tts/ z modelem="OpenAI: GPT-4o Audio" (lub łużka na tej stronie). Zwraca WAV lub MP3. Patrz /api/ dla pełnego odniesienia + SDK fragmenty.

Ta strona jest tekst-to-speech, a nie klonowanie głosu – głos jest domyślnym silnikiem. Dla klonowania głosu (rozładowywania dźwięku referencyjnego), patrz /voice/clone /, który wymaga od Ciebie albo posiada prawa głosowe lub posiada wyraźną pisemną zgodę.

Samodzielne silniki działają na Free.ai własnych GPU; nic nie opuszcza naszych serwerów. Silniki Premium przekazują tekst dostawcom modeli górnego stream w ramach naszego DPA. Nie trenujemy na wejściach i nie sprzedajemy danych.

Tak — Free.ai przyznaje komercyjne wykorzystanie generowanego dźwięku. Licencja fundamentalna silnika (Apache 2.0, MIT lub warunki dostawcy) jest wyświetlana powyżej i na stronie referencyjnej modelu; w praktyce oznacza to głosowe, reklamy, podcasty i aplikacje są wszystkie w skali.

Tak – niepowodzenie automatycznego zwrotu kosztów pracy do źródła (dawny basen lub zapłacone żetony). Jeżeli refundacja nie pojawia się w tym samym dniu, email contact@free.ai.

OpenAI: GPT-4o Audio

Często zadawane pytania

Jakie języki OpenAI: GPT-4o Audio?

Czy OpenAI: GPT-4o Audio ma rozpoznawany akcent?

Czy mogę użyć SSML z OpenAI: GPT-4o Audio?

Czy OpenAI: GPT-4o Audio obsługuje streaming?

Ile kosztuje OpenAI: GPT-4o Audio na klip?

Jaka jest maksymalna długość tekstu dla OpenAI: GPT-4o Audio?

Czy mogę uruchomić OpenAI: GPT-4o Audio w partii?

Czy istnieje API dla OpenAI: GPT-4o Audio?

Czy potrzebuję zgody na sklonowanie głosu przez OpenAI: GPT-4o Audio?

A co z prywatnością z OpenAI: GPT-4o Audio?

Czy OpenAI: GPT-4o Audio wyjście jest bezpieczne do użytku komercyjnego?

Mogę dostać zwrot zwrotu, jeśli OpenAI: GPT-4o Audio zawiodła?

Zdobądź 10 tysięcy darmowych tokenów

Poczekaj, zdobądź 10 tysięcy darmowych toków!

Chcesz więcej?