Wizper (Whisper v3)
Free.ai
·
stt
·
~500 প্রতি minute
Wizper (Whisper v3) হচ্ছে a বাক্যের- থেকে- টেক্সটের মডেল। বাইরের মডেলগুলোর মাধ্যমে পথ নির্ধারণ করা হয়েছে — ~500 টোকেন % 1 সেকেন্ড (আপস্ট্রিম খরচের ৫০% মার্কআপ)।
API ব্যবহার করো
OpenAI-সমর্থিত REST API। এক সেকেন্ডের মধ্যে একটি কী তৈরি করুন এবং এই মডেলটি কল করুন।
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/wizper","audio_url":"https://..."}'
API নথিপত্র
API কী প্রাপ্ত করুন
প্রায়শই জিজ্ঞাসিত প্রশ্ন
Wizper (Whisper v3) উচ্চারিত অডিওকে টেক্সটে রূপান্তর করে। MP3, WAV, M4A, অথবা ভিডিও ফাইল আপলোড করুন এবং Wizper (Whisper v3) টাইমসটেম্প সহযোগে সম্পূর্ণ ট্রান্সক্রিপশন এবং বৈকল্পিক SRT/VTT সাবটাইটেল ফিরিয়ে দেবে।
Wizper (Whisper v3) ডজনখানেক ভাষার ব্যবস্থা করে — Whisper-পরিবার মডেল ৯০+, Parakeet ~২৫, অন্যান্যদের মধ্যে পার্থক্য করে। সর্বোচ্চ সঠিকতার জন্য "স্বয়ংক্রিয়ভাবে সনাক্ত করুন" বা ভাষা নির্ধারণ করুন।
শব্দ-ত্রুটির হার পরিষ্কার ইংরেজি অডিওতে ৫-১০%, ঝামেলাপূর্ণ অথবা উচ্চারিত অডিওতে ১০-২০%। একই স্থাপত্যের বড় ধরনের বৈচিত্র্য কঠিন ক্ষেত্রে অর্থপূর্ণভাবে ভাল কাজ করে - অডিওটি রুক্ষ হলে বড় ধরনের বেছে নিন।
হ্যাঁ — প্রতিটি সেগমেন্টে শুরু/শেষ সময়সূচী অন্তর্ভুক্ত রয়েছে। SRT অথবা VTT হিসাবে রপ্তানি করুন এবং সময়সূচী সরাসরি আপনার ভিডিওতে ম্যাপ করুন।
Wizper (Whisper v3) একটি প্রিমিয়াম ট্রান্সক্রিপশন ইঞ্জিন। প্রতি মিনিটে অডিওতে প্রায় ~৫০০-১,৫০০ টোকেন। $১ = ৭৫০,০০০ টোকেন।
MP3, WAV, M4A, FLAC, OGG, এবং ভিডিও (MP4, MOV, WebM) — আমরা অডিও এক্সট্র্যাক্ট করব। প্রতি আপলোডে সর্বোচ্চ ৫০০ মেগাবাইট। দীর্ঘ ফাইল? /audio/cut/ ব্যবহার করে বিভক্ত করুন অথবা /v1/stt/batch/ ব্যবহার করুন।
স্পিকারের ডায়ারিজম একটি আলাদা পাস — /transcribe/ এ "diarize" টগল করুন। Wizper (Whisper v3) অনুবাদ ব্যবস্থাপনা করে; ডায়ারিজম প্রত্যেকটি অংশকে স্পিকার ১ / স্পিকার ২ / ইত্যাদির সাথে লেবেল করে।
হ্যাঁ — /batch/ অডিও ফাইলের ফোল্ডার গ্রহণ করে। প্রত্যেকটি ট্রান্সক্রিপ্ট মূল ফাইলের নাম সহ /account/?tab=history এ অবস্থিত হয়। ফোল্ডার-ট্রী সংরক্ষণের জন্য API ব্যবহার করুন।
হ্যাঁ — আপনার অডিও /v1/stt/transcribe/ এ POST করুন, যার মডেল হল "Wizper (Whisper v3)"। JSON ফিরিয়ে আনে, যাতে আছে টেক্সট + সেগমেন্ট + শব্দ-স্তরের সময়সূচী। /api/-এ সম্পূর্ণ রেফারেন্স রয়েছে।
স্ব-হোস্টকৃত মডেলগুলি আমাদের GPU-তে অডিও সংরক্ষণ করে; প্রাইম একটি DPA-র মাধ্যমে প্রবেশ করে। শেয়ার-উইন্ডোর পরে অডিও মুছে ফেলা হয় (২৪ ঘন্টা অবৈধ, ৭ দিন লগ-ইন)। আমরা আপনার ইনপুটগুলিতে প্রশিক্ষণ দিই না।
Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).
বাস্তব সময়ের ফ্যাক্টর হল প্রায় ০.০৫–০.২× — ৬০ মিনিটের একটি পডকাস্ট ৩–১২ মিনিটে অনুবাদ করা হয়। প্রাইম মডেলগুলি সাধারণত দ্রুত শেষ হয়। ট্যাবটি বন্ধ করতে লাইন বাটন ব্যবহার করুন।