Fal Speech-to-Text

Free.ai · stt · ~500 توکي په minute

غږيزه يا ويډيو دوتنه غورځول، يا URL لاندې سرېښل

~500 توکي په minute
په زموږ GPUs وړيا چلوي. د Fal Speech-to-Text →

Fal Speech-to-Text د a ليکنې ته وينا بېلګه دی. د بهرني ماډلونو له لارې لارښود - ~ 500 توکي په منټه کې (د 50٪ مارکپ په پرتله د لګښت لګښت).

د API له لارې کارول

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
لاسوندونه API کيلۍ ترلاسه کول

ډېرې پوښتنې

Fal Speech-to-Text په متن کې خبرې شوي غږونه لیږلي. د MP3، WAV، M4A، یا ویډیو فایل او Fal Speech-to-Text د وخت سره د اختیاري SRT / VTT سرلیکونو سره بشپړ لیږد بیرته راستون کړئ.

Fal Speech-to-Text د ژبو لسګونه ژبې اداره کوي - Whisper-کورنۍ ماډلونه 90 + پوښي ، Parakeet پوښي ~ 25 ، نور توپیر لري. د "خودکار کشف" غوره کړئ یا د لوړې دقیقیت لپاره ژبه وټاکئ.

د کلمې غلطۍ کچه د پاک انګليسي غږ په اړه 5-10٪ ده، د غږ یا غږ غږ په اړه 10-20٪. د ورته معمارۍ لوی ډولونه په سختو قضیو کې معنی لري - لوی غوره کړئ کله چې غږ سخت وي.

هو - هر برخې کې د پیل / پای timestamps شامل دي. د SRT یا VTT په توګه صادرول او د وخت نقشه مستقیم ستاسو ویډیو ته.

Fal Speech-to-Text د پریمیم لیږد انجن دی. د ~ 500-1,500 توکو په اړه د آډیو په دقیقه کې. $ 1 = 750,000 توکو.

MP3، WAV، M4A، FLAC، OGG، او ویډیو (MP4، MOV، WebM) - موږ آډیو استخراج کوو. په هر اپلوډ کې 500 MB. اوږدې فایلونه؟ د /audio/cut/ سره ویشئ یا /v1/stt/batch/ وکاروئ.

د وینا کونکي diarization یو جلا پاس دی - په / transcribe / کې د "diarize" توغول. Fal Speech-to-Text د لیږد اداره کوي؛ د diarization سره د وینا کونکي 1 / وینا کونکي 2 / او نور سره هر برخې لیبلونه.

هو - / batch / د غږيزو دوتنو پوښۍ مني. هر نقل په /account / کې ځمکې? د اصلي دوتنې نوم سره = تاریخ. د پوښۍ-ونې ساتنې لپاره د API کارولو لپاره.

هو - ستاسو آډیو د / v1 / stt / transcribe / سره د ماډل سره پوسټ کړئ "Fal Speech-to-Text". د متن + برخو + د کلمې کچې timestamps سره JSON بیرته راځي. / api / بشپړ حواله لري.

د ځان کوربه شوي ماډلونه زموږ د GPUs په غږ کې غږ ساتي؛ د DPA سره د پریمیم له لارې. غږ د شریک کړکۍ (24h anon، 7d sign-in) وروسته حذف کیږي. موږ ستاسو په انټرنیټ کې تمرین نه کوو.

هو - Free.ai د نقلونو سوداګریز کارولو ته اجازه ورکوي. تاسو ته اړتیا لرئ چې تاسو د غږ حقونه پورته کړئ (ستاسو خپل ریکارډ، د جواز مواد، یا د رضایت سره مینځپانګه).

د ریښتیني وخت فکتور شاوخوا 0.05-0.2 × دی - د 60 دقیقې پوډکاسټ په 3-12 دقیقو کې لیږدول کیږي. د پریمیم ماډلونه اکثرا ګړندي پای ته رسیږي. د ټب بندولو لپاره د قطار ت buttonۍ وکاروئ.

Free.ai مینه؟ خپل ملګرو ته ووایاست!

دا مخ کچول