Fal Speech-to-Text

Free.ai · stt · ~500 token/s minute

Audioa igotzen

Arrastatu audio- edo bideo-fitxategia, edo itsatsi URL bat behean

~500 token/s minute

Gure GPUetan doan exekutatzen da. Honen bertsio-berritzea: Fal Speech-to-Text →

Fal Speech-to-Text a hizketa-testurako eredua da. Kanpoko ereduen bidez bideratuta — ~500 tokens minutuko (%50eko markup-a goiko kostua baino).

Erabili API bidez

OpenAI-rekin bateragarria den REST APIa. Sortu gako bat eta deitu eredu honi segundo gutxitan.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'

API dokumentazioa Eskuratu API gakoa

Antzeko modeloak

ElevenLabs STT

Wizper (Whisper v3)

Arakatu modelo guztiak →

Maiz egiten diren galderak

Fal Speech-to-Text transcribes spoken audio into text. Upload an MP3, WAV, M4A, or video file and Fal Speech-to-Text returns the full transcript plus optional SRT/VTT subtitles with timestamps.

Fal Speech-to-Text-ek dozenaka hizkuntza kudeatzen ditu — Whisper-familiako modeloek 90+ hizkuntza hartzen dituzte, Parakeet-ek ~25, beste batzuk aldakorrak dira. Hautatu "autodetektatu" edo zehaztu hizkuntza zehaztasun handiena lortzeko.

Hitzen errore-tasa %5-10 da ingeles garbiko audioan, %10-20 zaratatsu edo azentudun audioan. Arkitektura bereko aldaera handiek hobeto funtzionatzen dute kasu gogorretan — aukeratu handiagoa audioa gogorra denean.

Bai — segmentu bakoitzak hasierako/amaierako denbora-zigilua du. Esportatu SRT edo VTT gisa, eta denbora-mapa zuzenean bideoan ezarriko da.

Fal Speech-to-Text transkribapen-motor premium bat da. Audio-minutu bakoitzeko ~500-1.500 token inguru. $1 = 750.000 token.

MP3, WAV, M4A, FLAC, OGG, eta bideoa (MP4, MOV, WebM) — audioa erauzten dugu. Gehienez 500 MB igoera bakoitzeko. Fitxategi luzeagoak? Zatitu /audio/cut/ erabiliz edo erabili /v1/stt/batch/.

Hizlarien diarizazioa pasabide bereizi bat da — "diarize" /transcribe/-n aktibatzea. Fal Speech-to-Text-k transkribapena kudeatzen du; diarizazioak segmentu bakoitza 1. hiztuna / 2. hiztuna / etab. etiketekin etiketatzen du.

Bai — /batch/-ek audio-fitxategien karpeta bat onartzen du. Transkriptu bakoitza /account/?tab=history-n jartzen da jatorrizko fitxategi-izena erabiliz. Karpeta-zuhaitza gordetzeko, erabili APIa.

Bai — POST zure audioa /v1/stt/transcribe/-ra model="Fal Speech-to-Text" erabiliz. JSON itzultzen du testuarekin + segmentuekin + hitzen mailako denbora-zigiluekin. /api/-k erreferentzia osoa du.

Auto-ostatutako modeloek audioa gure GPUetan gordetzen dute; premium-ek DPA bidez pasatzen dute. Audioa ezabatzen da partekatze-leihoaren ondoren (24 ordu anon, 7 egun saioa hasita). Ez dugu zure sarrerak entrenatzen.

Bai — Free.aik transkribapenen erabilera komertziala onartzen du. Igo duzun audioaren eskubideak behar dituzu (zure grabazioa, lizentziadun materiala edo baimenarekin edukia).

Denbora errealeko faktorea 0,05-0,2× da gutxi gorabehera — 60 minutuko podcast bat 3-12 minututan transkribatzen da. Premium modeloek askotan azkarrago amaitzen dute. Erabili ilara botoia fitxa ixteko.

Fal Speech-to-Text

Erabili API bidez

Antzeko modeloak

Maiz egiten diren galderak

What does Fal Speech-to-Text do?

How many languages does Fal Speech-to-Text support?

Zenbat da zehatza Fal Speech-to-Text?

Does Fal Speech-to-Text include timestamps?

Zenbat balio du Fal Speech-to-Text-k minutuko?

Zein audio-formatu igo ditzaket Fal Speech-to-Text-ra?

Can Fal Speech-to-Text identify different speakers?

Transkribatu dezaket batch-a Fal Speech-to-Text-rekin?

Ba al dago Fal Speech-to-Text-ren API bat?

Zer gertatzen da pribatutasunarekin Fal Speech-to-Text-rekin transkripzioa egiten dudanean?

Fal Speech-to-Text irteera segurua da erabilera komertzialerako?

Zenbat denbora behar du Fal Speech-to-Text-k?

Lortu 10.000 doako token

Itxaron — 10.000 doako token eskuratu!

Gehiago nahi duzu?