Moonshine Base

Free.ai (self-hosted) · stt · ~500 الرموز لكل minute

تحميل الصوت

أسقط ملفاً صوتياً أو فيديو، أو لصق عنوان URL أدناه

~500 الرموز لكل minute

Moonshine Base هو a نموذج تحويل الكلام إلى نص الذي بنته Useful Sensors. أفضل لاعب في Low-latency live transcription, embedded devices.. استضافة ذاتية على Free.ai GPUs — يعمل مجانا ضد مجمع الرموز اليومية (500 tokens في الدقيقة). تم إصداره تحت MIT — الاستخدام التجاري مسموح به على Free.ai.

الاستخدام عن طريق واجهة البرمجة

REST API متوافق مع OpenAI. تولد مفتاحاً وتدعو هذا النموذج في ثوانٍ.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"moonshine-base","audio_url":"https://..."}'

وثائق API احصل على مفتاح API

نماذج مماثلة

ElevenLabs STT

Fal Speech-to-Text

Wizper (Whisper v3)

جميع النماذج →

الأسئلة المتكررة

Moonshine Base يقوم بنسخ الصوت المنطوق إلى نص. قم بتحميل ملف MP3 أو WAV أو M4A أو فيديو وMoonshine Base يعيد النص الكامل بالإضافة إلى النصوص الجانبية الاختيارية SRT/VTT مع الأختام الزمنية.

Moonshine Base يتعامل مع عشرات اللغات — Whisper-family models cover 90+, Parakeet covers ~25, others vary.

معدل أخطاء الكلمات هو 5-10% على الصوت الإنجليزي النظيف، و 10-20% على الصوت المضطرب أو الملفت. المتغيرات الكبيرة من نفس البنية تفعل بشكل أفضل على الحالات الصعبة - اختار أكبر عندما يكون الصوت قاسيًا.

نعم - كل جزء يتضمن بداية / نهاية الختم الزمني. تصدير ك SRT أو VTT وخريطة الزمن مباشرة على الفيديو.

Moonshine Base يجري على وحدات المعالجة المركزية الخاصة بنا ضد مجمعك اليومي المجاني أولاً؛ $5 → 200,000 رموز مدفوعة بعد ذلك.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — نقوم باستخراج الصوت. الحد الأقصى 500 ميغابايت لكل تحميل. الملفات الأطول؟ تقسيم مع /audio/cut/ أو استخدام /v1/stt/batch/.

Moonshine Base يتعامل مع النسخ؛ وسم الترجمة لكل جزء مع المتحدث 1 / المتحدث 2 / إلخ.

نعم - /batch/ يقبل مجلدا من الملفات الصوتية. كل نسخة من النص تصل إلى /account/?tab=history مع اسم الملف الأصلي. للحفاظ على شجرة المجلد، استخدم API.

نعم — أرسل صوتك إلى /v1/stt/transcribe/ مع النموذج "Moonshine Base". يعيد JSON مع النص + الأجزاء + الختم الزمني على مستوى الكلمة. /api/ لديها المرجع الكامل.

النماذج المستضافة ذاتياً تحتفظ بالصوت على وحدات المعالجة الرسومية الخاصة بنا؛ ويتم نقل الصوت من خلال DPA. ويتم حذف الصوت بعد نافذة المشاركة (24 ساعة من دون تسجيل الدخول، 7 أيام من التسجيل).

نعم — Free.ai يمنح الاستخدام التجاري للنصوص. أنت بحاجة إلى حقوق على الصوت الذي قمت برفعه (تسجيلك الخاص، أو مواد مرخصة، أو محتوى مع موافقة).

عامل الوقت الحقيقي هو حوالي 0.05-0.2 × - 60 دقيقة من البث النصي في 3-12 دقيقة. النماذج العالية غالبا ما تنتهي أسرع.

Moonshine Base

الاستخدام عن طريق واجهة البرمجة

نماذج مماثلة

الأسئلة المتكررة

ماذا تفعل؟

كم عدد اللغات التي يدعمها Moonshine Base؟

ما مدى دقة Moonshine Base؟

هل يتضمن Moonshine Base ختما زمنيا؟

كم تكلف Moonshine Base في الدقيقة؟

ما هي الصيغ الصوتية التي يمكنني تحميلها على Moonshine Base؟

هل يمكن لـ Moonshine Base تحديد هوية متكلمين مختلفين؟

هل يمكنني أن أقوم بنسخ النصوص مع Moonshine Base؟

هل هناك رابطة بين التطبيقات لـ Moonshine Base؟

ماذا عن الخصوصية عندما أكتب مع Moonshine Base؟

هل مخرجات Moonshine Base آمنة للاستخدام التجاري؟

كم يستغرق Moonshine Base؟

حصل على 10,000 رموز مجانية

انتظر - احصل على 10K رموز مجانية!

تريد المزيد؟