Fal Speech-to-Text

Free.ai · stt · ~500 tokens pr. minute

Upload lyd

Slip en lyd- eller videofil, eller indsæt en URL nedenfor

~500 tokens pr. minute

Kører gratis på vores GPU'er. Opgradering til Fal Speech-to-Text →

Fal Speech-to-Text er {articletale- til- tekst- model}. Rutet gennem eksterne modeller ~{tpm_tokens} pr. minut (50% markup over opstrøms omkostninger).

Brug via API

OpenAI-kompatibel REST API. Generer en nøgle og ring til denne model på få sekunder.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'

API- dokumentation Hent API- nøgle

Lignende modeller

ElevenLabs STT

Wizper (Whisper v3)

Gennemse alle modeller →

Ofte stillede spørgsmål

Fal Speech-to-Text transskriberer talt lyd til tekst. Upload en MP3, WAV, M4A eller videofil og Fal Speech-to-Text returnerer den fulde udskrift plus valgfri SRT / VTT undertekster med tidsstempler.

Fal Speech-to-Text håndterer snesevis af sprog Whisper-familiemodeller dækker 90+, Parakeet dækker ~25, andre varierer. Vælg "auto-detektere" eller angive sproget for højeste nøjagtighed.

Word-error sats er 5!10% på ren engelsk lyd, 10!20% på støjende eller accentet lyd. Store varianter af den samme arkitektur gør meningsfuldt bedre på hårde sager plukke større, når lyden er ru.

Ja! Hvert segment omfatter start / slut tidsstempler. Eksporter som SRT eller VTT og gange kortet direkte på din video.

Fal Speech-to-Text er en premium transskription motor. Om ~ 500 ~ 1.500 tokens per minute of audio. $ 1 = 750.000 tokens.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) Vi udtrækker lyden. Max 500 MB per upload. Længere filer? Split med /audio/cut / eller brug /v1/stt/batch /.

Speaker diarization er en separat pass ~ skifte "diarize" på / transcribe /. Fal Speech-to-Text håndterer transskription; diarisering etiketter hvert segment med højttaler 1 / højttaler 2 / etc.

Ja! /batch/ accepterer en mappe med lydfiler. Hver udskrift lander i /account/?tab=historie med det oprindelige filnavn. For mappe- træ bevaring bruge API.

Ja! Indsæt din lyd til /v1/stt/transcribe/ med model="Fal Speech-to-Text". Returnerer JSON med tekst + segmenter + ordniveau tidsstempler. /api/ har den fulde reference.

Selvværd modeller holde lyd på vores GPU'er; premium passere igennem med en DPA. Lyd slettes efter share-vinduet (24h anon, 7d sign-in). Vi træner ikke på dine indgange.

Ja! Free.ai giver kommerciel brug af udskrifter. Du har brug for rettigheder til den lyd, du uploadede (din egen optagelse, licenseret materiale, eller indhold med samtykke).

Real-time faktor er ca. 0.05 [.05] 0.2× ~ en 60-minutters podcast transcribes i 3! 12 minutter. Premium modeller ofte afslutte hurtigere. Brug kø-knappen til at lukke fanebladet.

Fal Speech-to-Text

Brug via API

Lignende modeller

Ofte stillede spørgsmål

Hvad gør Fal Speech-to-Text?

Hvor mange sprog understøtter Fal Speech-to-Text?

Hvor præcis er Fal Speech-to-Text?

Omfatter Fal Speech-to-Text tidsstempler?

Hvor meget koster Fal Speech-to-Text pr. minut?

Hvilke lydformater kan jeg uploade til Fal Speech-to-Text?

Kan Fal Speech-to-Text identificere forskellige højttalere?

Kan jeg batch transskribere med Fal Speech-to-Text?

Er der en API for Fal Speech-to-Text?

Hvad med privatliv, når jeg transskriberer med Fal Speech-to-Text?

Er Fal Speech-to-Text output sikkert til kommerciel brug?

Hvor lang tid tager det Fal Speech-to-Text?

Få 10.000 gratis tokens

Vent! Få 10K gratis tokens!

Vil du have mere?