Fal Speech-to-Text
Free.ai
·
stt
·
~500 Токен minute
Fal Speech-to-Text нь a ярианаас-мэдээлэл-рүү загвар юм. Гадна загваруудаар дамжуулан — ~500 tokens минут (50% upstream cost-аас илүү марк)
API- ээр ашиглах
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
Хяналт
API түлхүүрийг авах
Заримдаа асуудаг асуултууд
Fal Speech-to-Text нь яриаг текст болгон хөрвүүлдэг. MP3, WAV, M4A, эсвэл видео файлыг татаж аваад Fal Speech-to-Text нь бүрэн хөрвүүлэлтийг болон сонгох боломжтой SRT/VTT субтитрүүдийг цагны тэмдэгтэй хамт буцаана.
Fal Speech-to-Text нь олон тооны хэлийг дэмждэг. Whisper-ийн төрөл нь 90+ хэлийг дэмждэг, Parakeet нь ~25 хэлийг дэмждэг, бусад нь өөр өөр байдаг. "авто-шинжилгээ"-г сонгох эсвэл хамгийн нарийн хэлийг заах.
Англи хэлний үгийн алдааны хувь нь цэвэр Англи хэлний аудиод 5-10%, чимээ ихтэй эсвэл өнгөлөг аудиод 10-20% байдаг. Ижил бүтэцтэй том хувилбарууд хатуу утгатай тохиолдолд илүү сайн ажилладаг - дууны чанар муутай үед том хувилбарыг сонгоно.
Тийм ээ — бүх хэсгүүд эхлэх/ дуусах цагийг агуулдаг. SRT эсвэл VTT хэлбэрээр экспортлох ба цагийг шууд видеонд оруулах.
Fal Speech-to-Text нь үнэтэй орчуулгын машин юм. Нэг минутын дууны ~500-1,500 жетон. $1 = 750,000 жетон.
MP3, WAV, M4A, FLAC, OGG, мөн видео (MP4, MOV, WebM) — аудиог татаж авна. Нэг өргөтгөлд 500 МБ хүртэл. Хэт урт файлууд? /audio/cut/ эсвэл /v1/stt/batch/ ашиглан хуваана уу.
Хөгжмийн зохиолчдын диариз нь тусгай дамжуулалт юм — /transcribe/ дээр "diarize" -ийг идэвхжүүл. Fal Speech-to-Text нь орчуулгыг хариуцна; диариз нь бүрэлдэхүүн хэсгүүдийг 1-р хөгжимчин / 2-р хөгжимчин / гэх мэтээр тэмдэглэнэ.
Тийм ээ — /batch/ нь аудио файлын хавтсыг хүлээн авдаг. Бүх бичлэгүүд /account/?tab=history-д ордог. Бусад файлуудыг хадгалахдаа API-г ашиглана уу.
Тийм — Аудио файлаа /v1/stt/transcribe/ руу POST хийж "Fal Speech-to-Text" загварыг ашиглана. JSON текст + хэсгүүд + үгийн түвшний цаг хугацааны тэмдэглэгээг буцаана. /api/ нь бүрэн холбоостой.
Өөрийн сервертэй загварууд дууг GPU дээр хадгална; Premium нь DPA-г ашиглан дууг дамжуулна. Хөгжим хуваалцах цонхны дараа дууг устгана (24 цаг аноним, 7 хоног бүртгэлтэй). Бид таны оруулсан мэдээллийг ашиглахгүй.
Тийм — Free.ai нь бичлэгийг худалдааны зорилгоор ашиглах эрхийг олгоно. Та өөрийн өргөтгсөн аудио файлын эрхийг (өөрөө бичсэн, лицензтэй материал, эсвэл зөвшөөрөлтэй агуулга) авах шаардлагатай.
Үнэгүй хувилбар нь 60 минутын подкастыг 3-12 минутад бичнэ. Үнэтэй хувилбар нь илүү хурдан дуусна. Хуудасыг хаахын тулд хүлээх товчийг дарна уу.