Fal Speech-to-Text

Free.ai · stt · ~500 ҳар бир minute

Аудио ёки видео файлни ташланг ёки URL'ни қуйига жойланг

~500 ҳар бир minute
Бизнинг GPUларда бепул ишлайди. Янгилаш Fal Speech-to-Text →

Fal Speech-to-Text a сўздан матнга модел га тенг. Тўртинчи моделлар орқали йўлланган — ~500 токенлар дақиқада (50% қийматдан юқори нарх).

API орқали фойдаланиш

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
Ҳужжатлаштириш API калитини олиш

Кўп бериладиган саволлар

Fal Speech-to-Text сўзланган аудиони матнга транскрипция қилади. MP3, WAV, M4A ёки видео файлни юклаб олинг ва Fal Speech-to-Text тўлиқ транскрипцияни ва вақт белгилари билан қўшимча SRT/VTT субтитрларини қайтаради.

Fal Speech-to-Text бир неча тилларни қўллаб-қувватлайди — Whisper-фамилияси моделлари 90+ дан ортиқ тилларни қўллаб-қувватлайди, Parakeet ~25 дан ортиқ тилларни қўллаб-қувватлайди, бошқалари эса турлича. "авто-таърифлаш"ни танланг ёки энг юқори аниқлик учун тилни кўрсатинг.

Ўзгартирилган сўз хато даражаси 5-10% тоза инглиз аудиосида, 10-20% шовқинли ёки акцентли аудиода. Худди шу архитектуранинг катта вариантлари қийин ҳолатларда яхшироқ ишлайди - аудио нотўғри бўлса, каттасини танланг.

Ҳа — ҳар бир сегмент бошланиш/охири вақтини ўз ичига олади. СРТ ёки VTT сифатида экспорт қилинг ва вақтлар видеога тўғридан-тўғри жойлаштирилади.

Fal Speech-to-Text - бу юқори сифатли транскрипция мотори. Ҳар бир дақиқада ~500-1,500 токен. $1 = 750,000 токен.

MP3, WAV, M4A, FLAC, OGG, плюс видео (MP4, MOV, WebM) — аудиони ажратамиз. Ҳар бир юклашда максимум 500 MB. Кўп файллар? /audio/cut/ билан ажратамиз ёки /v1/stt/batch/дан фойдаланамиз.

Овозли диаризация алоҳида ўтади — /transcribe/'да "diarize"ни ўчириб-ёқиш. Fal Speech-to-Text транскрипцияни бошқаради; диаризация ҳар бир сегментни 1-Овозли / 2-Овозли / ва ҳоказо билан белгилайди.

Ҳа — /batch/ аудио файллар жилдини қабул қилади. Ҳар бир транскрипт /account/?tab=history да асл файл номи билан жойлашади. Жилд дарахти сақлаш учун API'ни ишлатинг.

Ҳа — аудиони /v1/stt/transcribe/га POST қилиш, модел="Fal Speech-to-Text" билан. Матн + сегментлар + сўз даражасидаги вақт белгилари билан JSON қайтаради. /api/ тўлиқ манбага эга.

Ўз-ўзини бошқарувчи моделлар аудиони GPU'ларда сақлайди; premium DPA билан ўтади. Аудио ўртоқлашиш ойнаси тугагандан кейин ўчириб ташланади (24 соатдан кейин, 7 кундан кейин кириш). Биз сизнинг киритишларингизни ўрганмаймиз.

Ҳа — Free.ai транскриптларни савдо мақсадларида фойдаланишга рухсат беради. Сиз юклаб олган аудионинг ҳуқуқлари (ўзингизнинг ёзувингиз, лицензияланган материал ёки рухсат берилган мазмун) керак.

Реал вақт фактори тахминан 0.05–0.2× - 60 дақиқалик подкаст 3–12 дақиқада транскрипция қилинади. Premium моделлари кўпинча тезроқ тугайди. Табни ёпиш учун навбат тугмасини ишлатинг.

Free.aiни севасанми? Дўстларингга айт!

Бу саҳифани баҳолаш