Moonshine Base

Free.ai (self-hosted) · stt · ~500 simboliai minute

Numeskite garso ar vaizdo failą arba įklijuokite URL žemiau

~500 simboliai minute

Moonshine Base yra a kalbinis modelis sukurtas Useful Sensors. Stipriausi Low-latency live transcription, embedded devices.. Savarankiškas Free.ai GPU – bėga nemokamai nuo savo kasdienių žetonų baseinas ({tpm__markes} per minutę). Išleista pagal MIT – komercinis naudojimas leidžiamas Free.ai.

Naudoti per API

OpenAI suderinama REST API. Generuokite raktą ir paskambinkite šiam modeliui per kelias sekundes.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"moonshine-base","audio_url":"https://..."}'
API dokumentacija Gauti API raktą

Dažnai užduodami klausimai

Moonshine Base transcribes spoken audio into text. Upload an MP3, WAV, M4A, or video file and Moonshine Base returns the full transcript plus optional SRT/VTT subtitles with timestamps.

Moonshine Base hacks dešimtys kalbų — Whisper-šeimos modeliai apima 90+, Parakeet cover ~25, kiti skiriasi. Pasirinkite "auto-definiciją" arba nurodyti kalbą, kad būtų pasiektas didžiausias tikslumas.

Žodžių klaidų lygis yra 5-10% ant švaraus anglų garso, 10-20% triukšmingas ar akcentuotas garso. Dideli tos pačios architektūros variantai prasmingai geriau kietais atvejais — pasirinkti didesnį, kai garso yra grubus.

Taip — kiekvienas segmentas apima pradžios ir (arba) pabaigos žymes. Eksportuoti kaip SRT arba VTT ir laikas žemėlapis tiesiai į savo vaizdo įrašą.

Moonshine Base veikia mūsų pačių GPU prieš savo kasdienį nemokamą baseinas pirmą; $5 → 200,000 mokama žetonų po to. Apie ~500 žetonų per minutę.

MP3, WAV, M4A, FLAC, OGG, plius video (MP4, MOV, WebM) — mes ištraukiame garsą. Maks. 500 MB už įkeltą. Ilgesni failai? Split with /audio/cut/ or use /v1/stt/partch/.

Garsiakalbio diarizacija yra atskiras leidimas — perjungti "dializuoti" į / transkripcija/. Moonshine Base tvarko transkripciją; Dializės etiketes kiekviename segmente su Garsiakalbis 1 / Garsiakalbis 2 / ir tt

Taip — /partch/ priima aplanką garso failų. Kiekvienas stenogramos failas / paskyra /?tab=istorija su originalu failo pavadinimu. Aplanko išsaugojimui naudoti API.

Taip — Padėkite garsą į /v1/stt/tractor/ su modeliu="Moonshine Base". Grįžta JSON su tekstu + segmentai + žodžio lygio žymos. /api/ turi visą nuorodą.

Savarankiški modeliai išlaikyti garso mūsų GPU; premium perduoti per su DPA. Audio yra ištrintas po akcijų-window (24h anon, 7d prisijungė). Mes ne mokyti jūsų įvesties.

Taip — Free.ai suteikia komercinį transkriptų naudojimą. Jums reikia teisių įkeltą garsą (savo įrašymo, licencijuotos medžiagos ar turinio su sutikimu).

Realaus laiko faktorius yra maždaug 0,05-0,2× – 60 minučių podcast transliuojamas per 3–12 minučių. Pirminiai modeliai dažnai baigiasi greičiau. Norėdami uždaryti kortelę, naudokite eilės mygtuką.

Like this tool? Share it!

Įvertinti šį puslapį