faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 প্রতি minute

অডিও অথবা ভিডিও ফাইল ছেড়ে দিন, অথবা নিচে একটি ইউআরএল পেস্ট করুন

~500 প্রতি minute

faster-whisper large-v3 হচ্ছে a বাক্যের- থেকে- টেক্সটের মডেল যা OpenAI / SYSTRAN দ্বারা নির্মিত। Accurate transcription-এ সবচেয়ে শক্তিশালী। Self-hosted on Free.ai GPUs — runs free against your daily token pool (500 tokens % 1 সেকেন্ড). Released under MIT — commercial use permitted on Free.ai.

API ব্যবহার করো

OpenAI-সমর্থিত REST API। এক সেকেন্ডের মধ্যে একটি কী তৈরি করুন এবং এই মডেলটি কল করুন।

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'
API নথিপত্র API কী প্রাপ্ত করুন

প্রায়শই জিজ্ঞাসিত প্রশ্ন

faster-whisper large-v3 উচ্চারিত অডিওকে টেক্সটে রূপান্তর করে। MP3, WAV, M4A, অথবা ভিডিও ফাইল আপলোড করুন এবং faster-whisper large-v3 টাইমসটেম্প সহযোগে সম্পূর্ণ ট্রান্সক্রিপশন এবং বৈকল্পিক SRT/VTT সাবটাইটেল ফিরিয়ে দেবে।

faster-whisper large-v3 ডজনখানেক ভাষার ব্যবস্থা করে — Whisper-পরিবার মডেল ৯০+, Parakeet ~২৫, অন্যান্যদের মধ্যে পার্থক্য করে। সর্বোচ্চ সঠিকতার জন্য "স্বয়ংক্রিয়ভাবে সনাক্ত করুন" বা ভাষা নির্ধারণ করুন।

শব্দ-ত্রুটির হার পরিষ্কার ইংরেজি অডিওতে ৫-১০%, ঝামেলাপূর্ণ অথবা উচ্চারিত অডিওতে ১০-২০%। একই স্থাপত্যের বড় ধরনের বৈচিত্র্য কঠিন ক্ষেত্রে অর্থপূর্ণভাবে ভাল কাজ করে - অডিওটি রুক্ষ হলে বড় ধরনের বেছে নিন।

হ্যাঁ — প্রতিটি সেগমেন্টে শুরু/শেষ সময়সূচী অন্তর্ভুক্ত রয়েছে। SRT অথবা VTT হিসাবে রপ্তানি করুন এবং সময়সূচী সরাসরি আপনার ভিডিওতে ম্যাপ করুন।

faster-whisper large-v3 আমাদের নিজস্ব GPUs-এ আপনার দৈনিক ফ্রি পুলের বিরুদ্ধে প্রথমে কাজ করে; তারপর $৫ → ২০০,০০০ পে-টোকেন। প্রতি মিনিটে ~৫০০ টোকেন।

MP3, WAV, M4A, FLAC, OGG, এবং ভিডিও (MP4, MOV, WebM) — আমরা অডিও এক্সট্র্যাক্ট করব। প্রতি আপলোডে সর্বোচ্চ ৫০০ মেগাবাইট। দীর্ঘ ফাইল? /audio/cut/ ব্যবহার করে বিভক্ত করুন অথবা /v1/stt/batch/ ব্যবহার করুন।

স্পিকারের ডায়ারিজম একটি আলাদা পাস — /transcribe/ এ "diarize" টগল করুন। faster-whisper large-v3 অনুবাদ ব্যবস্থাপনা করে; ডায়ারিজম প্রত্যেকটি অংশকে স্পিকার ১ / স্পিকার ২ / ইত্যাদির সাথে লেবেল করে।

হ্যাঁ — /batch/ অডিও ফাইলের ফোল্ডার গ্রহণ করে। প্রত্যেকটি ট্রান্সক্রিপ্ট মূল ফাইলের নাম সহ /account/?tab=history এ অবস্থিত হয়। ফোল্ডার-ট্রী সংরক্ষণের জন্য API ব্যবহার করুন।

হ্যাঁ — আপনার অডিও /v1/stt/transcribe/ এ POST করুন, যার মডেল হল "faster-whisper large-v3"। JSON ফিরিয়ে আনে, যাতে আছে টেক্সট + সেগমেন্ট + শব্দ-স্তরের সময়সূচী। /api/-এ সম্পূর্ণ রেফারেন্স রয়েছে।

স্ব-হোস্টকৃত মডেলগুলি আমাদের GPU-তে অডিও সংরক্ষণ করে; প্রাইম একটি DPA-র মাধ্যমে প্রবেশ করে। শেয়ার-উইন্ডোর পরে অডিও মুছে ফেলা হয় (২৪ ঘন্টা অবৈধ, ৭ দিন লগ-ইন)। আমরা আপনার ইনপুটগুলিতে প্রশিক্ষণ দিই না।

Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).

বাস্তব সময়ের ফ্যাক্টর হল প্রায় ০.০৫–০.২× — ৬০ মিনিটের একটি পডকাস্ট ৩–১২ মিনিটে অনুবাদ করা হয়। প্রাইম মডেলগুলি সাধারণত দ্রুত শেষ হয়। ট্যাবটি বন্ধ করতে লাইন বাটন ব্যবহার করুন।

Free.ai ভালোবাসো?

এই পাতাটি রেটিং দিন