faster-whisper large-v3

Free.ai (self-hosted) · stt · ~500 ٹوکنس پر minute

آڈیو اپ لوڈ کریں

آڈیو يا ویڈیو فائل ڈاليں يا URL کو نيچے پسٹ کريں

~500 ٹوکنس پر minute

faster-whisper large-v3 a لفظ سے متن ماڈل OpenAI / SYSTRAN سے بنائی گئی ہے. Accurate transcription پر سب سے زیادہ مضبوط. Free.ai GPUs پر خود مہمان — آپ کے روزانہ ٹوکن پول کے خلاف مفت چلتا ہے (500 ٹوکن منٹ). MIT کے تحت آزاد کیا گیا — تجارتی استعمال Free.ai پر اجازت دی گئی.

API کے ذریعے استعمال کریں

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"faster-whisper-large-v3","audio_url":"https://..."}'

API دستاویزی API کلید حاصل کریں

Similar models

ElevenLabs STT

Fal Speech-to-Text

Wizper (Whisper v3)

Browse all models →

بار بار پوچھے گئے سوالات

faster-whisper large-v3 بولے ہوئے اوڈیو کو متن میں تبدیل کرتا ہے. MP3, WAV, M4A, یا ویڈیو فائل اپ لوڈ کریں اور faster-whisper large-v3 مکمل نقل کو واپس لاتا ہے اور اختیاری SRT/VTT ذیلی عنوانات کو ٹائم سٹیمپ کے ساتھ.

faster-whisper large-v3 دزينہ زبانوں کو ہینڈل کرتا هے - Whisper- فاميلي ماڈل 90+ کو ڈھانپتا هے، Parakeet ~25 کو ڈھانپتا هے، دوسروں میں فرق ہوتا هے. "خودکار دقت" کو منتخب کريں يا سب سے زائد دقت کے ليے زبان کو خاص کريں

لفظ غلطي کا ريٹ صاف انگريزي او ديو پر 5-10% ، شوردار يا افراط آ ديو پر 10-20% هے ۔ يک ئي فن تعمير کے بڑے تقسيمات سخت حالات پر قابليت پسندي سے بہتر کام کر تے هيں ۔

ہاں - ہر سیکشن میں شروع/آخر کے ٹائم سٹیمپ شامل ہیں. SRT یا VTT کے طور پر برآمد کریں اور وقت براہ راست آپ کی ویڈیو پر میپ کریں.

faster-whisper large-v3 آپ کے روزانہ مفت پول کے خلاف پہلے ہمارے اپنے GPUs پر چلتا ہے؛ $5 → اس کے بعد 200,000 ادا کئے گئے ٹوکنز. تقریباً ~500 ٹوکنز پر منٹ.

MP3, WAV, M4A, FLAC, OGG, اور ویڈیو (MP4, MOV, WebM) — ہم آڈیو کو نکالیں. ہر اپ لوڈ کے لیے 500 MB زیادہ. لمبی فائلیں؟ /audio/cut/ کے ساتھ تقسیم کریں یا /v1/stt/batch/ استعمال کریں.

اسپیکر ڈائريزيشن ایک الگ پاس ہے - /transcribe/ پر "diarize" کو ٹگل کریں. faster-whisper large-v3 نقل کو ہینڈل کرتا ہے؛ ڈائريزيشن ہر سگمنٹ کو اسپیکر 1 / اسپیکر 2 / اور اور کے ساتھ لیبل کرتا ہے

ہاں - /بچ/ آڈیو فائلیں کا فولڈر قبول کرتا ہے. ہر نقل /اکااؤنٹ/؟تبہ=تاريخ میں اصلی فائلنم کے ساتھ اترتا ہے. فولڈر-ترے کی حفاظت کے لیے API استعمال کریں.

ہاں - آپ کی آڈیو کو /v1/stt/transcribe/ میں POST کریں موڈل="faster-whisper large-v3" کے ساتھ. JSON کو متن + سگمنٹ + ورڈ-لیول ٹائمسٹمپس کے ساتھ واپس کرتا ہے. /api/ میں مکمل حوالہ ہے.

خود مہمان ماڈل ہمارے GPUs پر آڈیو رکھتے ہیں؛ پرائم DPA کے ساتھ گزرتے ہیں۔ آڈیو شیئر-وینڈو کے بعد حذف کی جاتی ہے (24h anon، 7d sign-in)۔ ہم آپ کی انپٹ پر تربیت نہیں کرتے۔

ہاں - Free.ai نقل کے تجارتی استعمال کو اجازت دیتا ہے آپ کو آپ نے اپ لوڈ کی ہوئی آڈیو کے حقوق کی ضرورت ہے (اپنا خود ریکارڈنگ، لائسنس شدہ مواد، یا رضامندی کے ساتھ مواد).

ریئل-ٹائم فیکٹر تقریباً 0.05–0.2× ہے — ایک 60 منٹ پوڈکاسٹ 3–12 منٹ میں نقل کرتا ہے۔ پرائم ماڈل اکثر تیزی سے ختم ہوتا ہے۔ ٹیب بند کرنے کے لئے قطار بٹن استعمال کریں۔

faster-whisper large-v3

API کے ذریعے استعمال کریں

Similar models

بار بار پوچھے گئے سوالات

faster-whisper large-v3 کیا کرتا ہے؟

کتنی زبانوں کو faster-whisper large-v3 حمایت کرتا ہے؟

faster-whisper large-v3 کتنا صحیح ہے؟

کیا faster-whisper large-v3 میں ٹائم سٹیمپ شامل ہیں؟

faster-whisper large-v3 کی قیمت ایک منٹ میں کتنی ہے؟

میں faster-whisper large-v3 پر کیا آڈیو فارمیٹ اپ لوڈ کر سکتا ہوں؟

کیا faster-whisper large-v3 مختلف بولنے والوں کی شناخت کر سکتا ہے؟

کیا میں faster-whisper large-v3 کے ساتھ بٹ نقل کر سکتا ہوں؟

کیا faster-whisper large-v3 کے لیے کوئی API موجود ہے؟

faster-whisper large-v3 کے ساتھ نقل کرنے کے وقت رازداری کے بارے میں کیا؟

کیا faster-whisper large-v3 خروجی تجارتی استعمال کے لیے محفوظ ہے؟

faster-whisper large-v3 کتنا وقت لے گا؟

10,000 مفت ٹوکنز حاصل کریں

رکو - 10K مفت ٹوکن حاصل کریں!

زیادہ چاہتے ہیں؟