Fal Speech-to-Text

Free.ai · stt · ~500 ٹوکنس پر minute

آڈیو اپ لوڈ کریں

آڈیو يا ویڈیو فائل ڈاليں يا URL کو نيچے پسٹ کريں

~500 ٹوکنس پر minute

ہمارے GPUs پر مفت چلتا ہے. اس کے لیے بہتری Fal Speech-to-Text →

Fal Speech-to-Text a لفظ سے متن ماڈل ہے. باہری ماڈلز کے ذریعے روٹ کیا گیا - ~500 ٹوکنز منٹ (50% مارک اپ اپسٹریم لاگت پر).

API کے ذریعے استعمال کریں

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'

API دستاویزی API کلید حاصل کریں

Similar models

ElevenLabs STT

Wizper (Whisper v3)

Browse all models →

بار بار پوچھے گئے سوالات

Fal Speech-to-Text بولے ہوئے اوڈیو کو متن میں تبدیل کرتا ہے. MP3, WAV, M4A, یا ویڈیو فائل اپ لوڈ کریں اور Fal Speech-to-Text مکمل نقل کو واپس لاتا ہے اور اختیاری SRT/VTT ذیلی عنوانات کو ٹائم سٹیمپ کے ساتھ.

Fal Speech-to-Text دزينہ زبانوں کو ہینڈل کرتا هے - Whisper- فاميلي ماڈل 90+ کو ڈھانپتا هے، Parakeet ~25 کو ڈھانپتا هے، دوسروں میں فرق ہوتا هے. "خودکار دقت" کو منتخب کريں يا سب سے زائد دقت کے ليے زبان کو خاص کريں

لفظ غلطي کا ريٹ صاف انگريزي او ديو پر 5-10% ، شوردار يا افراط آ ديو پر 10-20% هے ۔ يک ئي فن تعمير کے بڑے تقسيمات سخت حالات پر قابليت پسندي سے بہتر کام کر تے هيں ۔

ہاں - ہر سیکشن میں شروع/آخر کے ٹائم سٹیمپ شامل ہیں. SRT یا VTT کے طور پر برآمد کریں اور وقت براہ راست آپ کی ویڈیو پر میپ کریں.

Fal Speech-to-Text ایک پرائم ترنسکریپشن انجن ہے. ہر منٹ میں آڈیو کے لئے ~500-1,500 ٹوکنز. $1 = 750,000 ٹوکنز.

MP3, WAV, M4A, FLAC, OGG, اور ویڈیو (MP4, MOV, WebM) — ہم آڈیو کو نکالیں. ہر اپ لوڈ کے لیے 500 MB زیادہ. لمبی فائلیں؟ /audio/cut/ کے ساتھ تقسیم کریں یا /v1/stt/batch/ استعمال کریں.

اسپیکر ڈائريزيشن ایک الگ پاس ہے - /transcribe/ پر "diarize" کو ٹگل کریں. Fal Speech-to-Text نقل کو ہینڈل کرتا ہے؛ ڈائريزيشن ہر سگمنٹ کو اسپیکر 1 / اسپیکر 2 / اور اور کے ساتھ لیبل کرتا ہے

ہاں - /بچ/ آڈیو فائلیں کا فولڈر قبول کرتا ہے. ہر نقل /اکااؤنٹ/؟تبہ=تاريخ میں اصلی فائلنم کے ساتھ اترتا ہے. فولڈر-ترے کی حفاظت کے لیے API استعمال کریں.

ہاں - آپ کی آڈیو کو /v1/stt/transcribe/ میں POST کریں موڈل="Fal Speech-to-Text" کے ساتھ. JSON کو متن + سگمنٹ + ورڈ-لیول ٹائمسٹمپس کے ساتھ واپس کرتا ہے. /api/ میں مکمل حوالہ ہے.

خود مہمان ماڈل ہمارے GPUs پر آڈیو رکھتے ہیں؛ پرائم DPA کے ساتھ گزرتے ہیں۔ آڈیو شیئر-وینڈو کے بعد حذف کی جاتی ہے (24h anon، 7d sign-in)۔ ہم آپ کی انپٹ پر تربیت نہیں کرتے۔

ہاں - Free.ai نقل کے تجارتی استعمال کو اجازت دیتا ہے آپ کو آپ نے اپ لوڈ کی ہوئی آڈیو کے حقوق کی ضرورت ہے (اپنا خود ریکارڈنگ، لائسنس شدہ مواد، یا رضامندی کے ساتھ مواد).

ریئل-ٹائم فیکٹر تقریباً 0.05–0.2× ہے — ایک 60 منٹ پوڈکاسٹ 3–12 منٹ میں نقل کرتا ہے۔ پرائم ماڈل اکثر تیزی سے ختم ہوتا ہے۔ ٹیب بند کرنے کے لئے قطار بٹن استعمال کریں۔

Fal Speech-to-Text

API کے ذریعے استعمال کریں

Similar models

بار بار پوچھے گئے سوالات

Fal Speech-to-Text کیا کرتا ہے؟

کتنی زبانوں کو Fal Speech-to-Text حمایت کرتا ہے؟

Fal Speech-to-Text کتنا صحیح ہے؟

کیا Fal Speech-to-Text میں ٹائم سٹیمپ شامل ہیں؟

Fal Speech-to-Text کی قیمت ایک منٹ میں کتنی ہے؟

میں Fal Speech-to-Text پر کیا آڈیو فارمیٹ اپ لوڈ کر سکتا ہوں؟

کیا Fal Speech-to-Text مختلف بولنے والوں کی شناخت کر سکتا ہے؟

کیا میں Fal Speech-to-Text کے ساتھ بٹ نقل کر سکتا ہوں؟

کیا Fal Speech-to-Text کے لیے کوئی API موجود ہے؟

Fal Speech-to-Text کے ساتھ نقل کرنے کے وقت رازداری کے بارے میں کیا؟

کیا Fal Speech-to-Text خروجی تجارتی استعمال کے لیے محفوظ ہے؟

Fal Speech-to-Text کتنا وقت لے گا؟

10,000 مفت ٹوکنز حاصل کریں

رکو - 10K مفت ٹوکن حاصل کریں!

زیادہ چاہتے ہیں؟