Fal Speech-to-Text

Free.ai · stt · ~500 polletter per minute

Släpp en ljud- eller videofil, eller klistra in en webbadress nedan

~500 polletter per minute
Springer fritt på våra GPU:er. Uppgradera för Fal Speech-to-Text →

Fal Speech-to-Text är {artikel} {kategori}. Körs genom externa modeller — ~500 polletter per minut (50 % uppräkning över uppströmskostnad).

Använd via API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API-dokumentation Hämta API- nyckel

Vanliga frågor

Fal Speech-to-Text transkriberar talat ljud till text. Ladda upp en MP3, WAV, M4A eller videofil och Fal Speech-to-Text returnerar den fullständiga utskriften plus valfria SRT/VTT text med tidsstämplar.

Fal Speech-to-Text hanterar dussintals språk — Whisper-familj modeller täcker 90+, Parakeet täcker ~25, andra varierar. Välj "auto-detect" eller ange språket för högsta noggrannhet.

Word-terror är 5–10% på rent engelskt ljud, 10-20% på bullriga eller accentuerade ljud. Stora varianter av samma arkitektur gör meningsfullt bättre på hårda fall - plocka större när ljudet är grov.

Ja — varje segment inkluderar start/slut timestamps. Exportera som SRT eller VTT och gånger kartan direkt till din video.

Fal Speech-to-Text är en premium transkription motor. Om ~500-1 500 tokens per minut av ljud. $1 = 750.000 tokens.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) – vi extraherar ljudet. Max 500 MB per uppladdning. Längre filer? Dela med /audio/cut/ eller använd /v1/st/batch/.

Speaker diarization är ett separat pass — växla "diarize" på /transcribe /. Fal Speech-to-Text hanterar transkriptionen; diarization etiketter varje segment med högtalare 1 / högtalare 2 / etc.

Ja — / batch/ accepterar en katalog med ljudfiler. Varje utskrift landar i / account/?tab= historia med det ursprungliga filnamnet. För arkivering av katalogträd använd API:et.

Ja — Skicka ditt ljud till /v1/st/transcribe/ med modell="Fal Speech-to-Text". Returnerar JSON med text + segment + Word-level timestamps. /api/ har den fullständiga referensen.

Självvärdiga modeller håller ljud på våra GPUs; premium passera genom med en DPA. Ljud tas bort efter share-window (24h anon, 7d inloggad). Vi tränar inte på dina ingångar.

Ja — Free.ai beviljar kommersiell användning av utskrifter. Du behöver rättigheter till det ljud du laddat upp (din egen inspelning, licensierat material eller innehåll med samtycke).

Realtidsfaktorn är ungefär 0,05–0,2× — en 60-minuters podcast transkriberar i 3–12 minuter. Premium modeller ofta slutar snabbare. Använd köknappen för att stänga fliken.

Love this tool? Share it!

Betygsätt denna sida