MMAudio v2 (video→audio)
Free.ai
·
audio
·
~500 توکنها در هر clip
MMAudio v2 (video→audio) is a مدل هوش مصنوعی. مسیریابی از طریق مدلهای خارجی — ~500 tokens هر استفاده (۵۰٪ مارکاپ بر روی هزینههای بالادستی).
استفاده از طریق API
API REST سازگار با OpenAI. یک کلید تولید کنید و این مدل را در چند ثانیه فراخوانی کنید.
curl -X POST https://api.free.ai/v1/music/generate/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/mmaudio-v2","prompt":"your prompt here"}'
مستندات API
دریافت کلید API
پرسشهای متداول
MMAudio v2 (video→audio) از یک پیام متنی یا مرجع ویدئو ، جلوههای صوتی کوتاه و صدای محیط را تولید میکند. قدمها ، باران ، ماشین آلات ، خروش موجودات فضایی — صدا را توصیف میکند و MMAudio v2 (video→audio) آن را ترکیب میکند.
معمولاً ۱ تا ۲۲ ثانیه بسته به موتور. ترانههای محیطی قابل چرخش را میتوان با /audio/loop/ کشید.
بله — موتورهای تبدیل ویدئو به صدا مانند MMAudio v2 فریمها را از ویدئو میخوانند و یک آهنگ صوتی مطابق را ترکیب میکنند (گامهایی که هنگام حرکت پاها، فلاشهایی که هنگام برخورد آب به پاها میآید). ویدئو صامت را به /v1/audio/from-video/ یا صفحه بالا آپلود کنید.
به صورت پیشفرض WAV است. MP3 در گزینشکننده قالب در دسترس است.
MMAudio v2 (video→audio) یک مدل صوتی پریمیوم است. ~۱۰۰۰ تا ۵۰۰۰ توکن برای هر کلیپ. ۱ دلار = ۷۵۰۰۰۰ توکن.
این مدلها برای صداهای جلوه دار + فولی تنظیم شدهاند، نه موسیقی. برای آهنگهای ملودیک یا خواننده به /music/ مراجعه کنید که در آن MusicGen، ACE-Step، Stable Audio این مورد را مدیریت میکنند.
بله — این دستورالعمل توصیفی است (صدا را توصیف کنید، نه متن)، بنابراین هر زبانی تا زمانی که مدل آن را بفهمد کار میکند.
بله — /batch/ یک فهرست از درخواستها را میپذیرد. هر کلیپ در /account/?tab=history قرار میگیرد. API انعطافپذیرترین مسیر برای حفظ درخت پوشه است.
بله — POST به /v1/audio/generate/ با model="MMAudio v2 (video→audio)" و درخواست شما (یا ویدئو برای موتورهای v2a). /api/ دارای مرجع کامل است.
سياست مشابه بقيه Free.ai - خود-مورد استفاده در GPU ما، premium با DPA، آپلودها در زمانبندی پنجره اشتراکی به پایان میرسند. ما روی ورودی های شما آموزش نمیدهیم.
Yes — Free.ai grants commercial use of generated audio for game sound design, film foley, podcasts, ads.
۵ تا ۳۰ ثانیه برای هر کلیپ. تبدیل ویدئو به صدا زمان بیشتری میبرد (متناسب با طول ویدئو). برای بستن تب از دکمهی صف در /audio/ استفاده کنید.