Fal Speech-to-Text
Free.ai
·
stt
·
~500 توکي په minute
Fal Speech-to-Text د a ليکنې ته وينا بېلګه دی. د بهرني ماډلونو له لارې لارښود - ~ 500 توکي په منټه کې (د 50٪ مارکپ په پرتله د لګښت لګښت).
د API له لارې کارول
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
لاسوندونه
API کيلۍ ترلاسه کول
ډېرې پوښتنې
Fal Speech-to-Text په متن کې خبرې شوي غږونه لیږلي. د MP3، WAV، M4A، یا ویډیو فایل او Fal Speech-to-Text د وخت سره د اختیاري SRT / VTT سرلیکونو سره بشپړ لیږد بیرته راستون کړئ.
Fal Speech-to-Text د ژبو لسګونه ژبې اداره کوي - Whisper-کورنۍ ماډلونه 90 + پوښي ، Parakeet پوښي ~ 25 ، نور توپیر لري. د "خودکار کشف" غوره کړئ یا د لوړې دقیقیت لپاره ژبه وټاکئ.
د کلمې غلطۍ کچه د پاک انګليسي غږ په اړه 5-10٪ ده، د غږ یا غږ غږ په اړه 10-20٪. د ورته معمارۍ لوی ډولونه په سختو قضیو کې معنی لري - لوی غوره کړئ کله چې غږ سخت وي.
هو - هر برخې کې د پیل / پای timestamps شامل دي. د SRT یا VTT په توګه صادرول او د وخت نقشه مستقیم ستاسو ویډیو ته.
Fal Speech-to-Text د پریمیم لیږد انجن دی. د ~ 500-1,500 توکو په اړه د آډیو په دقیقه کې. $ 1 = 750,000 توکو.
MP3، WAV، M4A، FLAC، OGG، او ویډیو (MP4، MOV، WebM) - موږ آډیو استخراج کوو. په هر اپلوډ کې 500 MB. اوږدې فایلونه؟ د /audio/cut/ سره ویشئ یا /v1/stt/batch/ وکاروئ.
د وینا کونکي diarization یو جلا پاس دی - په / transcribe / کې د "diarize" توغول. Fal Speech-to-Text د لیږد اداره کوي؛ د diarization سره د وینا کونکي 1 / وینا کونکي 2 / او نور سره هر برخې لیبلونه.
هو - / batch / د غږيزو دوتنو پوښۍ مني. هر نقل په /account / کې ځمکې? د اصلي دوتنې نوم سره = تاریخ. د پوښۍ-ونې ساتنې لپاره د API کارولو لپاره.
هو - ستاسو آډیو د / v1 / stt / transcribe / سره د ماډل سره پوسټ کړئ "Fal Speech-to-Text". د متن + برخو + د کلمې کچې timestamps سره JSON بیرته راځي. / api / بشپړ حواله لري.
د ځان کوربه شوي ماډلونه زموږ د GPUs په غږ کې غږ ساتي؛ د DPA سره د پریمیم له لارې. غږ د شریک کړکۍ (24h anon، 7d sign-in) وروسته حذف کیږي. موږ ستاسو په انټرنیټ کې تمرین نه کوو.
هو - Free.ai د نقلونو سوداګریز کارولو ته اجازه ورکوي. تاسو ته اړتیا لرئ چې تاسو د غږ حقونه پورته کړئ (ستاسو خپل ریکارډ، د جواز مواد، یا د رضایت سره مینځپانګه).
د ریښتیني وخت فکتور شاوخوا 0.05-0.2 × دی - د 60 دقیقې پوډکاسټ په 3-12 دقیقو کې لیږدول کیږي. د پریمیم ماډلونه اکثرا ګړندي پای ته رسیږي. د ټب بندولو لپاره د قطار ت buttonۍ وکاروئ.