Fal Speech-to-Text
Free.ai
·
stt
·
~500 ຕົວແທນຕໍ່ minute
Fal Speech-to-Text ແມ່ນ a ແບບແບບເວົ້າເປັນຂໍ້ຄວາມ. ຜ່ານແບບແບບພາຍນອກ - ~ 500 tokens ຕໍ່ນາທີ (50% ລາຄາຕໍ່າກວ່າຄ່າໃຊ້ຈ່າຍ).
ប្រើຜ່ານ API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
ເອກະສານ API
ເອົາກຸນແຈ API
ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ
Fal Speech-to-Text ແປສຽງອອກສຽງເປັນຂໍ້ຄວາມ. ສົ່ງໄຟລ MP3, WAV, M4A, ຫຼື ວີດີໂອ ແລະ Fal Speech-to-Text ສົ່ງຄືນການແປເຕັມພ້ອມດ້ວຍບົດຄວາມ SRT/VTT ທີ່ເປັນທາງເລືອກພ້ອມກັບເວລາ.
Fal Speech-to-Text ຈັດການກັບພາສາຫຼາຍສິບພາສາ — Whisper-ຄອບຄົວແບບຈໍາລອງປົກຄຸມ 90%, Parakeet ປົກຄຸມ ~25, ອື່ນໆແຕກຕ່າງກັນ. ເລືອກ "ກວດພົບອັດຕະໂນມັດ" ຫຼື ລະບຸພາສາສໍາລັບການຄວາມຖືກຕ້ອງສູງສຸດ.
ອັດຕາຄວາມຜິດພາດຂອງຄໍາແມ່ນ 5-10% ສໍາລັບສຽງພາສາອັງກິດທີ່ສະອາດ, 10-20% ສໍາລັບສຽງທີ່ມີສຽງດັງຫຼືສຽງທີ່ອ່ອນແອ. ຕົວເລືອກທີ່ໃຫຍ່ກວ່າຂອງໂຄງສ້າງທີ່ຄ້າຍຄືກັນເຮັດໄດ້ດີກວ່າໃນກໍລະນີທີ່ຫຍຸ້ງຍາກ - ເລືອກຂະຫນາດໃຫຍ່ກວ່າເມື່ອສຽງແມ່ນຫຍາບ.
ຍິນດີ — ທຸກໆສ່ວນປະກອບມີເວລາເລີ່ມຕົ້ນ/ຈົບ. ສົ່ງອອກເປັນ SRT ຫຼື VTT ແລະເວລາທີ່ວາງແຜນໂດຍກົງໃສ່ວິດີໂອຂອງທ່ານ.
Fal Speech-to-Text ແມ່ນເຄື່ອງຈັກແປພາສາທີ່ມີລາຄາຖືກ. ປະມານ ~500–1,500 ບັດຕໍ່ນາທີຂອງສຽງ. $1 = 750,000 ບັດ.
MP3, WAV, M4A, FLAC, OGG, ນອກນັ້ນຍັງມີວິດີໂອ (MP4, MOV, WebM) — ພວກເຮົາດຶງອອກສຽງ. ສູງສຸດ 500 MB ຕໍ່ການອັບໂຫລດ. ໄຟລ໌ຍາວກວ່າ? Split ກັບ / audio / cut / ຫຼືໃຊ້ / v1 / stt / batch /.
ການພິມລາຍຊື່ຜູ້ເວົ້າແມ່ນການຜ່ານທີ່ແຍກອອກມາ — ປິດການໃຊ້ງານ "diarize" ໃນ / transcribe /. Fal Speech-to-Text ຈັດການການພິມລາຍຊື່; ການພິມລາຍຊື່ຜູ້ເວົ້າແມ່ນການວາງស្លាກໃສ່ສ່ວນຕ່າງໆຂອງຜູ້ເວົ້າແຕ່ລະສ່ວນດ້ວຍຜູ້ເວົ້າ 1 / ຜູ້ເວົ້າ2/ ແລະອື່ນໆ.
ຍອມຮັບ — /batch/ ຮັບເອົາໂຟນເດີຂອງໄຟລ໌ສຽງ. ລາຍການບັນທຶກແຕ່ລະອັນຈະຕົກຢູ່ໃນ /account/?tab=history ພ້ອມກັບຊື່ໄຟລ໌ຕົ້ນຕໍ. ສຳລັບການຮັກສາຕົ້ນຂອງໂຟນເດີໃຊ້ API.
ຍິນດີ — POST ສຽງຂອງທ່ານໄປທີ່ /v1/stt/transcribe/ ດ້ວຍແບບ "Fal Speech-to-Text". ສົ່ງຄືນ JSON ທີ່ມີຂໍ້ຄວາມ + ພາກ + ເວລາລະດັບຄໍາ. /api/ ມີຄໍາແນະນໍາເຕັມ.
ແບບທີ່ຈັດການເອງຮັກສາສຽງໃນ GPUs ຂອງພວກເຮົາ; ຄ່າໃຊ້ຈ່າຍຜ່ານຜ່ານກັບ DPA. ສຽງຖືກລຶບຫຼັງຈາກແບ່ງປັນ-window (24h anon, 7d ເຂົ້າສູ່ລະບົບ). ພວກເຮົາບໍ່ຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນເຂົ້າຂອງທ່ານ.
ຍິນດີ — Free.ai ອະນຸຍາດໃຫ້ໃຊ້ການພິມຖ່າຍທອດສຽງໃນທາງທຸລະກິດ. ທ່ານຕ້ອງມີສິດໃນການອັບໂຫລດສຽງ (ການບັນທຶກຂອງທ່ານເອງ, ວັດຖຸທີ່ມີໃບອະນຸຍາດ, ຫຼື ເນື້ອໃນທີ່ມີການອະນຸຍາດ).
ປັດໃຈເວລາຈິງແມ່ນປະມານ 0.05-0.2 × - ບົດຂຽນ podcast 60 ນາທີໃນ 3-12 ນາທີ. ແບບຟອມປະກັນໄພມັກຈະສິ້ນສຸດລົງໄວກວ່າ. ໃຊ້ປຸ່ມລໍຖ້າເພື່ອປິດແທັບ.