Fal Speech-to-Text

Free.ai · stt · ~500 প্রতি minute

অডিও অথবা ভিডিও ফাইল ছেড়ে দিন, অথবা নিচে একটি ইউআরএল পেস্ট করুন

~500 প্রতি minute
আমাদের GPUs উপর ফ্রি চালানো হয়. এর জন্য উন্নীত করো Fal Speech-to-Text →

Fal Speech-to-Text হচ্ছে a বাক্যের- থেকে- টেক্সটের মডেল। বাইরের মডেলগুলোর মাধ্যমে পথ নির্ধারণ করা হয়েছে — ~500 টোকেন % 1 সেকেন্ড (আপস্ট্রিম খরচের ৫০% মার্কআপ)।

API ব্যবহার করো

OpenAI-সমর্থিত REST API। এক সেকেন্ডের মধ্যে একটি কী তৈরি করুন এবং এই মডেলটি কল করুন।

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API নথিপত্র API কী প্রাপ্ত করুন

প্রায়শই জিজ্ঞাসিত প্রশ্ন

Fal Speech-to-Text উচ্চারিত অডিওকে টেক্সটে রূপান্তর করে। MP3, WAV, M4A, অথবা ভিডিও ফাইল আপলোড করুন এবং Fal Speech-to-Text টাইমসটেম্প সহযোগে সম্পূর্ণ ট্রান্সক্রিপশন এবং বৈকল্পিক SRT/VTT সাবটাইটেল ফিরিয়ে দেবে।

Fal Speech-to-Text ডজনখানেক ভাষার ব্যবস্থা করে — Whisper-পরিবার মডেল ৯০+, Parakeet ~২৫, অন্যান্যদের মধ্যে পার্থক্য করে। সর্বোচ্চ সঠিকতার জন্য "স্বয়ংক্রিয়ভাবে সনাক্ত করুন" বা ভাষা নির্ধারণ করুন।

শব্দ-ত্রুটির হার পরিষ্কার ইংরেজি অডিওতে ৫-১০%, ঝামেলাপূর্ণ অথবা উচ্চারিত অডিওতে ১০-২০%। একই স্থাপত্যের বড় ধরনের বৈচিত্র্য কঠিন ক্ষেত্রে অর্থপূর্ণভাবে ভাল কাজ করে - অডিওটি রুক্ষ হলে বড় ধরনের বেছে নিন।

হ্যাঁ — প্রতিটি সেগমেন্টে শুরু/শেষ সময়সূচী অন্তর্ভুক্ত রয়েছে। SRT অথবা VTT হিসাবে রপ্তানি করুন এবং সময়সূচী সরাসরি আপনার ভিডিওতে ম্যাপ করুন।

Fal Speech-to-Text একটি প্রিমিয়াম ট্রান্সক্রিপশন ইঞ্জিন। প্রতি মিনিটে অডিওতে প্রায় ~৫০০-১,৫০০ টোকেন। $১ = ৭৫০,০০০ টোকেন।

MP3, WAV, M4A, FLAC, OGG, এবং ভিডিও (MP4, MOV, WebM) — আমরা অডিও এক্সট্র্যাক্ট করব। প্রতি আপলোডে সর্বোচ্চ ৫০০ মেগাবাইট। দীর্ঘ ফাইল? /audio/cut/ ব্যবহার করে বিভক্ত করুন অথবা /v1/stt/batch/ ব্যবহার করুন।

স্পিকারের ডায়ারিজম একটি আলাদা পাস — /transcribe/ এ "diarize" টগল করুন। Fal Speech-to-Text অনুবাদ ব্যবস্থাপনা করে; ডায়ারিজম প্রত্যেকটি অংশকে স্পিকার ১ / স্পিকার ২ / ইত্যাদির সাথে লেবেল করে।

হ্যাঁ — /batch/ অডিও ফাইলের ফোল্ডার গ্রহণ করে। প্রত্যেকটি ট্রান্সক্রিপ্ট মূল ফাইলের নাম সহ /account/?tab=history এ অবস্থিত হয়। ফোল্ডার-ট্রী সংরক্ষণের জন্য API ব্যবহার করুন।

হ্যাঁ — আপনার অডিও /v1/stt/transcribe/ এ POST করুন, যার মডেল হল "Fal Speech-to-Text"। JSON ফিরিয়ে আনে, যাতে আছে টেক্সট + সেগমেন্ট + শব্দ-স্তরের সময়সূচী। /api/-এ সম্পূর্ণ রেফারেন্স রয়েছে।

স্ব-হোস্টকৃত মডেলগুলি আমাদের GPU-তে অডিও সংরক্ষণ করে; প্রাইম একটি DPA-র মাধ্যমে প্রবেশ করে। শেয়ার-উইন্ডোর পরে অডিও মুছে ফেলা হয় (২৪ ঘন্টা অবৈধ, ৭ দিন লগ-ইন)। আমরা আপনার ইনপুটগুলিতে প্রশিক্ষণ দিই না।

Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).

বাস্তব সময়ের ফ্যাক্টর হল প্রায় ০.০৫–০.২× — ৬০ মিনিটের একটি পডকাস্ট ৩–১২ মিনিটে অনুবাদ করা হয়। প্রাইম মডেলগুলি সাধারণত দ্রুত শেষ হয়। ট্যাবটি বন্ধ করতে লাইন বাটন ব্যবহার করুন।

Free.ai ভালোবাসো?

এই পাতাটি রেটিং দিন