Fal Speech-to-Text

Free.ai · stt · ~500 tokens pr. minute

Slip en lyd- eller videofil, eller indsæt en URL nedenfor

~500 tokens pr. minute
Kører gratis på vores GPU'er. Opgradering til Fal Speech-to-Text →

Fal Speech-to-Text er {articletale- til- tekst- model}. Rutet gennem eksterne modeller ~{tpm_tokens} pr. minut (50% markup over opstrøms omkostninger).

Brug via API

OpenAI-kompatibel REST API. Generer en nøgle og ring til denne model på få sekunder.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API- dokumentation Hent API- nøgle

Ofte stillede spørgsmål

Fal Speech-to-Text transskriberer talt lyd til tekst. Upload en MP3, WAV, M4A eller videofil og Fal Speech-to-Text returnerer den fulde udskrift plus valgfri SRT / VTT undertekster med tidsstempler.

Fal Speech-to-Text håndterer snesevis af sprog Whisper-familiemodeller dækker 90+, Parakeet dækker ~25, andre varierer. Vælg "auto-detektere" eller angive sproget for højeste nøjagtighed.

Word-error sats er 5!10% på ren engelsk lyd, 10!20% på støjende eller accentet lyd. Store varianter af den samme arkitektur gør meningsfuldt bedre på hårde sager plukke større, når lyden er ru.

Ja! Hvert segment omfatter start / slut tidsstempler. Eksporter som SRT eller VTT og gange kortet direkte på din video.

Fal Speech-to-Text er en premium transskription motor. Om ~ 500 ~ 1.500 tokens per minute of audio. $ 1 = 750.000 tokens.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) Vi udtrækker lyden. Max 500 MB per upload. Længere filer? Split med /audio/cut / eller brug /v1/stt/batch /.

Speaker diarization er en separat pass ~ skifte "diarize" på / transcribe /. Fal Speech-to-Text håndterer transskription; diarisering etiketter hvert segment med højttaler 1 / højttaler 2 / etc.

Ja! /batch/ accepterer en mappe med lydfiler. Hver udskrift lander i /account/?tab=historie med det oprindelige filnavn. For mappe- træ bevaring bruge API.

Ja! Indsæt din lyd til /v1/stt/transcribe/ med model="Fal Speech-to-Text". Returnerer JSON med tekst + segmenter + ordniveau tidsstempler. /api/ har den fulde reference.

Selvværd modeller holde lyd på vores GPU'er; premium passere igennem med en DPA. Lyd slettes efter share-vinduet (24h anon, 7d sign-in). Vi træner ikke på dine indgange.

Ja! Free.ai giver kommerciel brug af udskrifter. Du har brug for rettigheder til den lyd, du uploadede (din egen optagelse, licenseret materiale, eller indhold med samtykke).

Real-time faktor er ca. 0.05 [.05] 0.2× ~ en 60-minutters podcast transcribes i 3! 12 minutter. Premium modeller ofte afslutte hurtigere. Brug kø-knappen til at lukke fanebladet.

Love this tool? Share it!

Bedøm denne side