ElevenLabs STT

Free.ai · stt · ~500 توکنها در هر minute

پروندۀ صوتی یا ویدئویی را رها کنید، یا نشانی وب را در زیر بچسبانید

~500 توکنها در هر minute
در پردازنده‌های گرافیکی ما آزادانه اجرا می‌شود. ارتقا برای ElevenLabs STT →

ElevenLabs STT is a مدل گفتار به متن. مسیریابی از طریق مدل‌های خارجی — ~500 tokens در دقیقه (۵۰٪ مارکاپ بر روی هزینه‌های بالادستی).

استفاده از طریق API

API REST سازگار با OpenAI. یک کلید تولید کنید و این مدل را در چند ثانیه فراخوانی کنید.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
مستندات API دریافت کلید API

پرسشهای متداول

ElevenLabs STT رونوشت صدای گفتار را به متن تبدیل می‌کند. یک MP3، WAV، M4A یا پرونده ویدئو را بارگذاری کنید و ElevenLabs STT رونوشت کامل را به علاوه زیرنویس‌های اختیاری SRT/VTT با مهرهای زمانی برمی‌گرداند.

ElevenLabs STT ده‌ها زبان را پشتیبانی می‌کند — مدل‌های Whisper-family ۹۰+ را پوشش می‌دهند، Parakeet حدود ۲۵ زبان را پوشش می‌دهد، بقیه متفاوت هستند.

نرخ خطای کلمه ۵–۱۰٪ در صدای انگلیسی تمیز، ۱۰–۲۰٪ در صدای پر سر و صدا یا با لهجه است.

بله — هر بخش شامل علامت زمان آغاز/پایان است. صادرات به عنوان SRT یا VTT و نقشه زمان مستقیماً روی ویدئو شما.

ElevenLabs STT یک موتور رونویسی پرمیوم است. ~۵۰۰ تا ۱۵۰۰ توکن در دقیقه صدا. ۱ دلار = ۷۵۰۰۰۰ توکن.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — ما صدا را استخراج می‌کنیم. حداکثر ۵۰۰ مگابایت در بارگذاری. پرونده‌های طولانی‌تر؟ با /audio/cut/ تقسیم کنید یا از /v1/stt/batch/ استفاده کنید.

ElevenLabs STT رونویسی را انجام می‌دهد؛ دیاریزاسیون هر بخش را با برچسب‌های Speaker 1 / Speaker 2 / و غیره برچسب می‌زند.

بله — /batch/ یک پوشه پرونده‌های صوتی را می‌پذیرد. هر رونوشت در /account/?tab=history با نام پرونده اصلی قرار می‌گیرد. برای حفظ درخت پوشه از API استفاده کنید.

بله — POST audio خود را به /v1/stt/transcribe/ با model="ElevenLabs STT". با متن + بخش‌ها + تایمز سطح کلمه JSON را برمی‌گرداند. /api/ دارای مرجع کامل است.

مدل‌های خود میزبانی‌کننده صدا را در GPUهای ما نگه می‌دارند؛ Premium با DPA از طریق آن عبور می‌کند. صدا پس از پنجره اشتراک حذف می‌شود (۲۴ ساعت بدون اطلاع، ۷ روز ثبت نام). ما ورودی‌های شما را آموزش نمی‌دهیم.

Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).

فاکتور زمان واقعی تقریباً ۰٫۰۵–۰٫۲× است — یک پادکست ۶۰ دقیقه ای در ۳–۱۲ دقیقه رونوشت می‌شود. مدل‌های پریمیوم اغلب سریعتر تمام می‌شوند.

دوست Free.ai رو به دوستانت بگو

رتبه بندی این صفحه