Moonshine Base

Free.ai (self-hosted) · stt · ~500 প্রতি minute

অডিও অথবা ভিডিও ফাইল ছেড়ে দিন, অথবা নিচে একটি ইউআরএল পেস্ট করুন

~500 প্রতি minute

Moonshine Base হচ্ছে a বাক্যের- থেকে- টেক্সটের মডেল যা Useful Sensors দ্বারা নির্মিত। Low-latency live transcription, embedded devices.-এ সবচেয়ে শক্তিশালী। Self-hosted on Free.ai GPUs — runs free against your daily token pool (500 tokens % 1 সেকেন্ড). Released under MIT — commercial use permitted on Free.ai.

API ব্যবহার করো

OpenAI-সমর্থিত REST API। এক সেকেন্ডের মধ্যে একটি কী তৈরি করুন এবং এই মডেলটি কল করুন।

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"moonshine-base","audio_url":"https://..."}'
API নথিপত্র API কী প্রাপ্ত করুন

প্রায়শই জিজ্ঞাসিত প্রশ্ন

Moonshine Base উচ্চারিত অডিওকে টেক্সটে রূপান্তর করে। MP3, WAV, M4A, অথবা ভিডিও ফাইল আপলোড করুন এবং Moonshine Base টাইমসটেম্প সহযোগে সম্পূর্ণ ট্রান্সক্রিপশন এবং বৈকল্পিক SRT/VTT সাবটাইটেল ফিরিয়ে দেবে।

Moonshine Base ডজনখানেক ভাষার ব্যবস্থা করে — Whisper-পরিবার মডেল ৯০+, Parakeet ~২৫, অন্যান্যদের মধ্যে পার্থক্য করে। সর্বোচ্চ সঠিকতার জন্য "স্বয়ংক্রিয়ভাবে সনাক্ত করুন" বা ভাষা নির্ধারণ করুন।

শব্দ-ত্রুটির হার পরিষ্কার ইংরেজি অডিওতে ৫-১০%, ঝামেলাপূর্ণ অথবা উচ্চারিত অডিওতে ১০-২০%। একই স্থাপত্যের বড় ধরনের বৈচিত্র্য কঠিন ক্ষেত্রে অর্থপূর্ণভাবে ভাল কাজ করে - অডিওটি রুক্ষ হলে বড় ধরনের বেছে নিন।

হ্যাঁ — প্রতিটি সেগমেন্টে শুরু/শেষ সময়সূচী অন্তর্ভুক্ত রয়েছে। SRT অথবা VTT হিসাবে রপ্তানি করুন এবং সময়সূচী সরাসরি আপনার ভিডিওতে ম্যাপ করুন।

Moonshine Base আমাদের নিজস্ব GPUs-এ আপনার দৈনিক ফ্রি পুলের বিরুদ্ধে প্রথমে কাজ করে; তারপর $৫ → ২০০,০০০ পে-টোকেন। প্রতি মিনিটে ~৫০০ টোকেন।

MP3, WAV, M4A, FLAC, OGG, এবং ভিডিও (MP4, MOV, WebM) — আমরা অডিও এক্সট্র্যাক্ট করব। প্রতি আপলোডে সর্বোচ্চ ৫০০ মেগাবাইট। দীর্ঘ ফাইল? /audio/cut/ ব্যবহার করে বিভক্ত করুন অথবা /v1/stt/batch/ ব্যবহার করুন।

স্পিকারের ডায়ারিজম একটি আলাদা পাস — /transcribe/ এ "diarize" টগল করুন। Moonshine Base অনুবাদ ব্যবস্থাপনা করে; ডায়ারিজম প্রত্যেকটি অংশকে স্পিকার ১ / স্পিকার ২ / ইত্যাদির সাথে লেবেল করে।

হ্যাঁ — /batch/ অডিও ফাইলের ফোল্ডার গ্রহণ করে। প্রত্যেকটি ট্রান্সক্রিপ্ট মূল ফাইলের নাম সহ /account/?tab=history এ অবস্থিত হয়। ফোল্ডার-ট্রী সংরক্ষণের জন্য API ব্যবহার করুন।

হ্যাঁ — আপনার অডিও /v1/stt/transcribe/ এ POST করুন, যার মডেল হল "Moonshine Base"। JSON ফিরিয়ে আনে, যাতে আছে টেক্সট + সেগমেন্ট + শব্দ-স্তরের সময়সূচী। /api/-এ সম্পূর্ণ রেফারেন্স রয়েছে।

স্ব-হোস্টকৃত মডেলগুলি আমাদের GPU-তে অডিও সংরক্ষণ করে; প্রাইম একটি DPA-র মাধ্যমে প্রবেশ করে। শেয়ার-উইন্ডোর পরে অডিও মুছে ফেলা হয় (২৪ ঘন্টা অবৈধ, ৭ দিন লগ-ইন)। আমরা আপনার ইনপুটগুলিতে প্রশিক্ষণ দিই না।

Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).

বাস্তব সময়ের ফ্যাক্টর হল প্রায় ০.০৫–০.২× — ৬০ মিনিটের একটি পডকাস্ট ৩–১২ মিনিটে অনুবাদ করা হয়। প্রাইম মডেলগুলি সাধারণত দ্রুত শেষ হয়। ট্যাবটি বন্ধ করতে লাইন বাটন ব্যবহার করুন।

Free.ai ভালোবাসো?

এই পাতাটি রেটিং দিন