ElevenLabs STT
Free.ai
·
stt
·
~500 توکنها در هر minute
ElevenLabs STT is a مدل گفتار به متن. مسیریابی از طریق مدلهای خارجی — ~500 tokens در دقیقه (۵۰٪ مارکاپ بر روی هزینههای بالادستی).
استفاده از طریق API
API REST سازگار با OpenAI. یک کلید تولید کنید و این مدل را در چند ثانیه فراخوانی کنید.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
مستندات API
دریافت کلید API
پرسشهای متداول
ElevenLabs STT رونوشت صدای گفتار را به متن تبدیل میکند. یک MP3، WAV، M4A یا پرونده ویدئو را بارگذاری کنید و ElevenLabs STT رونوشت کامل را به علاوه زیرنویسهای اختیاری SRT/VTT با مهرهای زمانی برمیگرداند.
ElevenLabs STT دهها زبان را پشتیبانی میکند — مدلهای Whisper-family ۹۰+ را پوشش میدهند، Parakeet حدود ۲۵ زبان را پوشش میدهد، بقیه متفاوت هستند.
نرخ خطای کلمه ۵–۱۰٪ در صدای انگلیسی تمیز، ۱۰–۲۰٪ در صدای پر سر و صدا یا با لهجه است.
بله — هر بخش شامل علامت زمان آغاز/پایان است. صادرات به عنوان SRT یا VTT و نقشه زمان مستقیماً روی ویدئو شما.
ElevenLabs STT یک موتور رونویسی پرمیوم است. ~۵۰۰ تا ۱۵۰۰ توکن در دقیقه صدا. ۱ دلار = ۷۵۰۰۰۰ توکن.
MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — ما صدا را استخراج میکنیم. حداکثر ۵۰۰ مگابایت در بارگذاری. پروندههای طولانیتر؟ با /audio/cut/ تقسیم کنید یا از /v1/stt/batch/ استفاده کنید.
ElevenLabs STT رونویسی را انجام میدهد؛ دیاریزاسیون هر بخش را با برچسبهای Speaker 1 / Speaker 2 / و غیره برچسب میزند.
بله — /batch/ یک پوشه پروندههای صوتی را میپذیرد. هر رونوشت در /account/?tab=history با نام پرونده اصلی قرار میگیرد. برای حفظ درخت پوشه از API استفاده کنید.
بله — POST audio خود را به /v1/stt/transcribe/ با model="ElevenLabs STT". با متن + بخشها + تایمز سطح کلمه JSON را برمیگرداند. /api/ دارای مرجع کامل است.
مدلهای خود میزبانیکننده صدا را در GPUهای ما نگه میدارند؛ Premium با DPA از طریق آن عبور میکند. صدا پس از پنجره اشتراک حذف میشود (۲۴ ساعت بدون اطلاع، ۷ روز ثبت نام). ما ورودیهای شما را آموزش نمیدهیم.
Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).
فاکتور زمان واقعی تقریباً ۰٫۰۵–۰٫۲× است — یک پادکست ۶۰ دقیقه ای در ۳–۱۲ دقیقه رونوشت میشود. مدلهای پریمیوم اغلب سریعتر تمام میشوند.