Wizper (Whisper v3)

Free.ai · stt · ~500 ҳар бир minute

Аудио ёки видео файлни ташланг ёки URL'ни қуйига жойланг

~500 ҳар бир minute
Бизнинг GPUларда бепул ишлайди. Янгилаш Wizper (Whisper v3) →

Wizper (Whisper v3) a сўздан матнга модел га тенг. Тўртинчи моделлар орқали йўлланган — ~500 токенлар дақиқада (50% қийматдан юқори нарх).

API орқали фойдаланиш

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/wizper","audio_url":"https://..."}'
Ҳужжатлаштириш API калитини олиш

Кўп бериладиган саволлар

Wizper (Whisper v3) сўзланган аудиони матнга транскрипция қилади. MP3, WAV, M4A ёки видео файлни юклаб олинг ва Wizper (Whisper v3) тўлиқ транскрипцияни ва вақт белгилари билан қўшимча SRT/VTT субтитрларини қайтаради.

Wizper (Whisper v3) бир неча тилларни қўллаб-қувватлайди — Whisper-фамилияси моделлари 90+ дан ортиқ тилларни қўллаб-қувватлайди, Parakeet ~25 дан ортиқ тилларни қўллаб-қувватлайди, бошқалари эса турлича. "авто-таърифлаш"ни танланг ёки энг юқори аниқлик учун тилни кўрсатинг.

Ўзгартирилган сўз хато даражаси 5-10% тоза инглиз аудиосида, 10-20% шовқинли ёки акцентли аудиода. Худди шу архитектуранинг катта вариантлари қийин ҳолатларда яхшироқ ишлайди - аудио нотўғри бўлса, каттасини танланг.

Ҳа — ҳар бир сегмент бошланиш/охири вақтини ўз ичига олади. СРТ ёки VTT сифатида экспорт қилинг ва вақтлар видеога тўғридан-тўғри жойлаштирилади.

Wizper (Whisper v3) - бу юқори сифатли транскрипция мотори. Ҳар бир дақиқада ~500-1,500 токен. $1 = 750,000 токен.

MP3, WAV, M4A, FLAC, OGG, плюс видео (MP4, MOV, WebM) — аудиони ажратамиз. Ҳар бир юклашда максимум 500 MB. Кўп файллар? /audio/cut/ билан ажратамиз ёки /v1/stt/batch/дан фойдаланамиз.

Овозли диаризация алоҳида ўтади — /transcribe/'да "diarize"ни ўчириб-ёқиш. Wizper (Whisper v3) транскрипцияни бошқаради; диаризация ҳар бир сегментни 1-Овозли / 2-Овозли / ва ҳоказо билан белгилайди.

Ҳа — /batch/ аудио файллар жилдини қабул қилади. Ҳар бир транскрипт /account/?tab=history да асл файл номи билан жойлашади. Жилд дарахти сақлаш учун API'ни ишлатинг.

Ҳа — аудиони /v1/stt/transcribe/га POST қилиш, модел="Wizper (Whisper v3)" билан. Матн + сегментлар + сўз даражасидаги вақт белгилари билан JSON қайтаради. /api/ тўлиқ манбага эга.

Ўз-ўзини бошқарувчи моделлар аудиони GPU'ларда сақлайди; premium DPA билан ўтади. Аудио ўртоқлашиш ойнаси тугагандан кейин ўчириб ташланади (24 соатдан кейин, 7 кундан кейин кириш). Биз сизнинг киритишларингизни ўрганмаймиз.

Ҳа — Free.ai транскриптларни савдо мақсадларида фойдаланишга рухсат беради. Сиз юклаб олган аудионинг ҳуқуқлари (ўзингизнинг ёзувингиз, лицензияланган материал ёки рухсат берилган мазмун) керак.

Реал вақт фактори тахминан 0.05–0.2× - 60 дақиқалик подкаст 3–12 дақиқада транскрипция қилинади. Premium моделлари кўпинча тезроқ тугайди. Табни ёпиш учун навбат тугмасини ишлатинг.

Free.aiни севасанми? Дўстларингга айт!

Бу саҳифани баҳолаш