Moonshine Base

Free.ai (self-hosted) · stt · ~500 ҳар бир minute

Аудио ёки видео файлни ташланг ёки URL'ни қуйига жойланг

~500 ҳар бир minute

Moonshine Base a сўздан матнга модел томонидан Useful Sensors томонидан яратилган. Low-latency live transcription, embedded devices. да энг кучли. Free.ai GPU'ларда ўз-ўзидан жойлаштирилган — сизнинг кундалик токенларингизга қарши бепул ишлайди (500 токенлар дақиқада). MIT остида чиқарилган — Free.ai дан коммерциявий фойдаланишга рухсат берилган.

API орқали фойдаланиш

OpenAI-га мос REST API. Алоқани яратинг ва бу моделни секундларда чақиринг.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"moonshine-base","audio_url":"https://..."}'
Ҳужжатлаштириш API калитини олиш

Кўп бериладиган саволлар

Moonshine Base сўзланган аудиони матнга транскрипция қилади. MP3, WAV, M4A ёки видео файлни юклаб олинг ва Moonshine Base тўлиқ транскрипцияни ва вақт белгилари билан қўшимча SRT/VTT субтитрларини қайтаради.

Moonshine Base бир неча тилларни қўллаб-қувватлайди — Whisper-фамилияси моделлари 90+ дан ортиқ тилларни қўллаб-қувватлайди, Parakeet ~25 дан ортиқ тилларни қўллаб-қувватлайди, бошқалари эса турлича. "авто-таърифлаш"ни танланг ёки энг юқори аниқлик учун тилни кўрсатинг.

Ўзгартирилган сўз хато даражаси 5-10% тоза инглиз аудиосида, 10-20% шовқинли ёки акцентли аудиода. Худди шу архитектуранинг катта вариантлари қийин ҳолатларда яхшироқ ишлайди - аудио нотўғри бўлса, каттасини танланг.

Ҳа — ҳар бир сегмент бошланиш/охири вақтини ўз ичига олади. СРТ ёки VTT сифатида экспорт қилинг ва вақтлар видеога тўғридан-тўғри жойлаштирилади.

Moonshine Base биринчи навбатда сизнинг кундалик бепул пулингизга қарши ўз GPUларимизда ишлайди; $5 → 200,000 тўлов токенлари кейин. Ҳар дақиқада ~500 токен.

MP3, WAV, M4A, FLAC, OGG, плюс видео (MP4, MOV, WebM) — аудиони ажратамиз. Ҳар бир юклашда максимум 500 MB. Кўп файллар? /audio/cut/ билан ажратамиз ёки /v1/stt/batch/дан фойдаланамиз.

Овозли диаризация алоҳида ўтади — /transcribe/'да "diarize"ни ўчириб-ёқиш. Moonshine Base транскрипцияни бошқаради; диаризация ҳар бир сегментни 1-Овозли / 2-Овозли / ва ҳоказо билан белгилайди.

Ҳа — /batch/ аудио файллар жилдини қабул қилади. Ҳар бир транскрипт /account/?tab=history да асл файл номи билан жойлашади. Жилд дарахти сақлаш учун API'ни ишлатинг.

Ҳа — аудиони /v1/stt/transcribe/га POST қилиш, модел="Moonshine Base" билан. Матн + сегментлар + сўз даражасидаги вақт белгилари билан JSON қайтаради. /api/ тўлиқ манбага эга.

Ўз-ўзини бошқарувчи моделлар аудиони GPU'ларда сақлайди; premium DPA билан ўтади. Аудио ўртоқлашиш ойнаси тугагандан кейин ўчириб ташланади (24 соатдан кейин, 7 кундан кейин кириш). Биз сизнинг киритишларингизни ўрганмаймиз.

Ҳа — Free.ai транскриптларни савдо мақсадларида фойдаланишга рухсат беради. Сиз юклаб олган аудионинг ҳуқуқлари (ўзингизнинг ёзувингиз, лицензияланган материал ёки рухсат берилган мазмун) керак.

Реал вақт фактори тахминан 0.05–0.2× - 60 дақиқалик подкаст 3–12 дақиқада транскрипция қилинади. Premium моделлари кўпинча тезроқ тугайди. Табни ёпиш учун навбат тугмасини ишлатинг.

Free.aiни севасанми? Дўстларингга айт!

Бу саҳифани баҳолаш