Fal Speech-to-Text

Free.ai · stt · ~500 жетони по minute

Качи го аудиото

Испуштете аудио или видео датотека, или вметнете URL подолу

~500 жетони по minute

Бесплатно работи на нашите ГПУ. Надоградба за Fal Speech-to-Text →

Fal Speech-to-Text is a модел од говор во текст. Путен преку надворешни модели — ~500 žeтони во минута (50% маркирање над цената одгоре на потокот).

Користи преку API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'

API документација Земи API- клуч

Similar models

ElevenLabs STT

Wizper (Whisper v3)

Browse all models →

Често поставувани прашања

Fal Speech-to-Text transcribes зборуваниот аудио во текст. Внесете MP3, WAV, M4A или видео датотека и Fal Speech-to-Text го врати целосниот транскрипт плус опционални SRT/VTT субтитри со временски табели.

Fal Speech-to-Text раководи со десетици јазици — Whisper- семејни модели покриваат 90+, Parakeet покрива ~25, други варираат. Изберете „автодетекција“ или наведете го јазикот за највисока точност.

Стапката на збор-тероризам е 5-10% на чист англиски аудио, 10-20% на бучен или акцентиран аудио. Големите варијанти на истата архитектура се многу подобри во тешките случаи — избираат поголеми кога аудиото е грубо.

Да — секој сегмент вклучува временски знаци за почеток/ крај. Изнеси го како SRT или VTT и мапата на времето директно на твоето видео.

Fal Speech-to-Text е премиум транскрипциски мотор. Околу ~500–1,500 жетони во минута аудио. $1 = 750.000 жетони.

MP3, WAV, M4A, FLAC, OGG, плус видео (MP4, MOV, WebM) — го вадиме аудиото. Макс. 500 MB на качување. Подолги датотеки? Подели со / audio/cut/ или користете / v1/stt/ batch /.

Дијаризацијата на звучникот е посебен пасс — вклучи го „диаризирај“ на /transcribe /. Fal Speech-to-Text раководи со транскрипцијата; дијаризирање етикети на секој сегмент со спикер 1 / Speaker 2 / etc.

Да — /batch/ прифаќа папка од аудио датотеки. Секој транскрипт спаѓа во / account /?tab=историја со оригиналното име на име. За зачувување на папки- дрво користете API.

Да — ВРАќа JSON со текст + сегменти + временски знаци на нивото на збор. /api/ има целосна референца.

Самодомаќините модели чуваат аудио на нашите GPU; премиум поминуваат со DPA. Аудио се избришува по споделуваниот прозорец (24h anon, 7d потпишано). Не тренираме на вашите влези.

Да — Free.ai даваат комерцијална употреба на транскрипти.

Факторот во реално време е приближно 0,05–0,2× — 60-минутен транскрипт за подемисија за 3–12 минути. Премиум моделите често завршуваат побрзо. Користете го копчето за да го затворите ливчето.

Fal Speech-to-Text

Користи преку API

Similar models

Често поставувани прашања

Што прави Fal Speech-to-Text?

Колку јазици поддржува Fal Speech-to-Text?

Колку точно е Fal Speech-to-Text?

Дали Fal Speech-to-Text вклучува временски знаци?

Колку Fal Speech-to-Text košta во минута?

Кои аудио формати можам да ставам во Fal Speech-to-Text?

Може ли Fal Speech-to-Text да идентификува различни звучници?

Можам ли да се запишам со Fal Speech-to-Text?

Дали постои API за Fal Speech-to-Text?

Што е со приватноста кога се препишувам со Fal Speech-to-Text?

Дали Fal Speech-to-Text output_ е безбеден за комерцијална употреба?

Колку време треба Fal Speech-to-Text?

Земи 10.000 бесплатни токови

Чекај, земи 10 000 бесплатни токови!

Сакаш уште?