ElevenLabs STT
Free.ai
·
stt
·
~500 প্রতি minute
ElevenLabs STT হচ্ছে a বাক্যের- থেকে- টেক্সটের মডেল। বাইরের মডেলগুলোর মাধ্যমে পথ নির্ধারণ করা হয়েছে — ~500 টোকেন % 1 সেকেন্ড (আপস্ট্রিম খরচের ৫০% মার্কআপ)।
API ব্যবহার করো
OpenAI-সমর্থিত REST API। এক সেকেন্ডের মধ্যে একটি কী তৈরি করুন এবং এই মডেলটি কল করুন।
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
API নথিপত্র
API কী প্রাপ্ত করুন
প্রায়শই জিজ্ঞাসিত প্রশ্ন
ElevenLabs STT উচ্চারিত অডিওকে টেক্সটে রূপান্তর করে। MP3, WAV, M4A, অথবা ভিডিও ফাইল আপলোড করুন এবং ElevenLabs STT টাইমসটেম্প সহযোগে সম্পূর্ণ ট্রান্সক্রিপশন এবং বৈকল্পিক SRT/VTT সাবটাইটেল ফিরিয়ে দেবে।
ElevenLabs STT ডজনখানেক ভাষার ব্যবস্থা করে — Whisper-পরিবার মডেল ৯০+, Parakeet ~২৫, অন্যান্যদের মধ্যে পার্থক্য করে। সর্বোচ্চ সঠিকতার জন্য "স্বয়ংক্রিয়ভাবে সনাক্ত করুন" বা ভাষা নির্ধারণ করুন।
শব্দ-ত্রুটির হার পরিষ্কার ইংরেজি অডিওতে ৫-১০%, ঝামেলাপূর্ণ অথবা উচ্চারিত অডিওতে ১০-২০%। একই স্থাপত্যের বড় ধরনের বৈচিত্র্য কঠিন ক্ষেত্রে অর্থপূর্ণভাবে ভাল কাজ করে - অডিওটি রুক্ষ হলে বড় ধরনের বেছে নিন।
হ্যাঁ — প্রতিটি সেগমেন্টে শুরু/শেষ সময়সূচী অন্তর্ভুক্ত রয়েছে। SRT অথবা VTT হিসাবে রপ্তানি করুন এবং সময়সূচী সরাসরি আপনার ভিডিওতে ম্যাপ করুন।
ElevenLabs STT একটি প্রিমিয়াম ট্রান্সক্রিপশন ইঞ্জিন। প্রতি মিনিটে অডিওতে প্রায় ~৫০০-১,৫০০ টোকেন। $১ = ৭৫০,০০০ টোকেন।
MP3, WAV, M4A, FLAC, OGG, এবং ভিডিও (MP4, MOV, WebM) — আমরা অডিও এক্সট্র্যাক্ট করব। প্রতি আপলোডে সর্বোচ্চ ৫০০ মেগাবাইট। দীর্ঘ ফাইল? /audio/cut/ ব্যবহার করে বিভক্ত করুন অথবা /v1/stt/batch/ ব্যবহার করুন।
স্পিকারের ডায়ারিজম একটি আলাদা পাস — /transcribe/ এ "diarize" টগল করুন। ElevenLabs STT অনুবাদ ব্যবস্থাপনা করে; ডায়ারিজম প্রত্যেকটি অংশকে স্পিকার ১ / স্পিকার ২ / ইত্যাদির সাথে লেবেল করে।
হ্যাঁ — /batch/ অডিও ফাইলের ফোল্ডার গ্রহণ করে। প্রত্যেকটি ট্রান্সক্রিপ্ট মূল ফাইলের নাম সহ /account/?tab=history এ অবস্থিত হয়। ফোল্ডার-ট্রী সংরক্ষণের জন্য API ব্যবহার করুন।
হ্যাঁ — আপনার অডিও /v1/stt/transcribe/ এ POST করুন, যার মডেল হল "ElevenLabs STT"। JSON ফিরিয়ে আনে, যাতে আছে টেক্সট + সেগমেন্ট + শব্দ-স্তরের সময়সূচী। /api/-এ সম্পূর্ণ রেফারেন্স রয়েছে।
স্ব-হোস্টকৃত মডেলগুলি আমাদের GPU-তে অডিও সংরক্ষণ করে; প্রাইম একটি DPA-র মাধ্যমে প্রবেশ করে। শেয়ার-উইন্ডোর পরে অডিও মুছে ফেলা হয় (২৪ ঘন্টা অবৈধ, ৭ দিন লগ-ইন)। আমরা আপনার ইনপুটগুলিতে প্রশিক্ষণ দিই না।
Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).
বাস্তব সময়ের ফ্যাক্টর হল প্রায় ০.০৫–০.২× — ৬০ মিনিটের একটি পডকাস্ট ৩–১২ মিনিটে অনুবাদ করা হয়। প্রাইম মডেলগুলি সাধারণত দ্রুত শেষ হয়। ট্যাবটি বন্ধ করতে লাইন বাটন ব্যবহার করুন।