Fal Speech-to-Text

Free.ai · stt · ~500 tokens per minute

Laat een audio- of videobestand vallen of plak een URL hieronder

~500 tokens per minute
Hij is vrij op onze GPU's. Upgrade voor Fal Speech-to-Text →

Fal Speech-to-Text is a {categorie}. Gerouteerd door externe modellen ~500 tokens per minuut (50% stijging ten opzichte van upstreamkosten).

Gebruik via API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API-documentatie API-sleutel ophalen

Veelgestelde vragen

Fal Speech-to-Text transcribes gesproken audio in tekst. Upload een MP3, WAV, M4A, of videobestand en Fal Speech-to-Text geeft het volledige transcript plus optionele SRT/VTT ondertitels met tijdstempels.

Fal Speech-to-Text behandelt tientallen talen Whisper-familiemodellen bestrijken 90+, Parakeet covers ~25, andere variëren. Kies "auto-detect" of geef de taal voor de hoogste nauwkeurigheid.

Word-error rate is 5.00% op schone Engelse audio, 10.020% op luidruchtige of geaccentueerde audio. Grote varianten van dezelfde architectuur doen betekenisvol beter op harde gevallen Pick groter wanneer de audio is ruw.

Ja, elk segment bevat start/end tijdstempels. Exporteer als SRT of VTT en de tijdkaart direct op uw video.

Fal Speech-to-Text is een premium transcriptie-engine. Ongeveer ~500.500 tokens per minuut van audio. $1 = 750.000 tokens.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) We halen de audio. Max 500 MB per upload. Langere bestanden? Splitsen met /audio/cut/of gebruik /v1/stt/batch/.

Speaker diarization is een aparte pass die "diarize" schakelt op /transcribe/. Fal Speech-to-Text verwerkt de transcriptie; diarization labels elk segment met Speaker 1 / Speaker 2 / etc.

Ja, /batch/ accepteert een map met audiobestanden. Elk transcript landt in /account/?tab=history met de oorspronkelijke bestandsnaam. Voor het bewaren van de map-boom gebruikt u de API.

Ja, POST je audio naar /v1/stt/transcribe/met model="Fal Speech-to-Text." Geeft JSON terug met tekst + segmenten + woord-level timestamps. /api/ heeft de volledige referentie.

Zelfgehoste modellen houden audio op onze GPU's; premium pass through met een DPA. Audio wordt verwijderd na het share-venster (24h anon, 7d ingelogd). We trainen niet op uw ingangen.

Ja, Free.ai verleent commercieel gebruik van transcripten. U heeft rechten nodig op de audio die u hebt geüpload (uw eigen opname, gelicentieerd materiaal of inhoud met toestemming).

Real-time factor is ruwweg 0.50.0.2× een 60-minuten podcast transcribes in 3.12 minuten. Premium modellen vaak sneller eindigen. Gebruik de wachtrij knop om het tabblad te sluiten.

Love this tool? Share it!

Beoordeel deze pagina