faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 Токенҳо дар як minute

Файли аудио ё видеоро партоед ё URL-ро дар поён ҷойгир кунед

~500 Токенҳо дар як minute

faster-whisper large-v3 ин a Модули гуфтугӯ ба матн аст, ки аз тарафи OpenAI / SYSTRAN сохта шудааст. Дар ибтидои асри ХIХ дар ш. Free.ai (Free.ai) — як адад аст, ки дар рӯйхати ситорагон бо аломати (88) ифода шудааст. Released under MIT — commercial use permitted on Free.ai.

Истифода аз API

API-и REST-и мувофиқи OpenAI. Калидро эҷод кунед ва ин намунаро дар якчанд сония даъват кунед.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'
Ҳуҷҷатҳои API Гирифтани калиди API

Саволҳои пурсидашуда

faster-whisper large-v3 садои гуфташударо ба матн табдил медиҳад. Файли MP3, WAV, M4A ё видеоро бор кунед ва faster-whisper large-v3 матни пурраро ба иловаи зерсарлавҳаҳои SRT/VTT бо нишонаҳои вақт бармегардонад.

faster-whisper large-v3 даҳҳо забонро идора мекунад — Whisper-модели оила 90+-ро дар бар мегирад, Parakeet ~25-ро дар бар мегирад, дигарон гуногунанд. "муайянкунии худкор"-ро интихоб кунед ё барои дақиқии баландтарин забони муайяншударо муайян кунед.

Дарозии хатои калима 5-10% дар аудиои англисии тоза, 10-20% дар аудиои шуғлнок ё бо акцент. Вариантҳои калони ҳамон сохтори ба таври назаррас беҳтар дар ҳолатҳои душвор - интихоби калонтар, вақте ки аудио сахт аст.

Бале — ҳар як сегмент дорои аломатҳои вақти оғоз/охири мебошад. Содирот ҳамчун SRT ё VTT ва харитаҳои вақти бевосита ба видеои шумо.

faster-whisper large-v3 дар аввал дар GPU-ҳои худамон дар муқобили пули озоди ҳаррӯзаи шумо кор мекунад; $5 → 200,000 токенҳои пардохтшуда баъд аз он. Дар бораи ~500 токенҳо дар як дақиқа.

MP3, WAV, M4A, FLAC, OGG, ва видео (MP4, MOV, WebM) — мо аудиоро бароварда мебарорем. Ҳадди аксар 500 МБ барои ҳар боркунӣ. Файлҳои дарозтар? Бо /audio/cut/ ҷудо кунед ё /v1/stt/batch/-ро истифода баред.

Диаграммаи 1.1: Тақсимшавии аҳолӣ дар ноҳияҳои вилояти Суғд (аз рӯи синну сол) Диаграммаи 1.2: Тақсимшавии аҳолӣ дар ноҳияҳои вилояти Суғд (аз рӯи синну сол)

Да — /batch/ каталоги файлҳои аудиоиро қабул мекунад. Ҳар як нусхаи нусхаи нусха дар /account/?tab=history бо номи файли аслӣ ҷойгир мешавад. Барои нигоҳдории дарахти каталог API-ро истифода баред.

Да — POST аудиои худро ба /v1/stt/transcribe/ бо модел="faster-whisper large-v3". JSON-ро бо матн + қисмҳо + аломати вақт дар сатҳи калима бармегардонад. /api/ истиноди пурра дорад.

Модельҳои худидомадор аудиоро дар GPU-ҳои мо нигоҳ медоранд; Premium бо DPA мегузарад. Аудио баъди тирезаи муштараксозии (24 соат бе қайд, 7 рӯз ворид шудан) нест карда мешавад. Мо дар бораи воридоти шумо машқ намекунем.

Бале — Free.ai иҷозат медиҳад, ки истифодаи тиҷоратии нусхаҳои нусхаҳои нусхаҳоро истифода баред. Шумо бояд ҳуқуқи аудиоро, ки шумо бор кардаед (записьи худ, маводи иҷозатномадор ё мундариҷа бо иҷозатнома) дошта бошед.

Фактори вақти воқеӣ тақрибан 0.05-0.2× аст — 60-дақиқаӣ подкаст дар 3-12 дақиқа нусхабардорӣ мешавад. Намунаҳои Premium аксар вақт зудтар ба итмом мерасанд. Барои пӯшидани ҷадвалбандӣ тугмаи навбатро истифода баред.

Шумо Free.ai- ро дӯст медоред? Ба дӯстонатон бигӯед!

Ин саҳифаро баҳо диҳед