Fal Speech-to-Text
Free.ai
·
stt
·
~500 ਟੋਕਨਾਂ ਪ੍ਰਤੀ minute
Fal Speech-to-Text a ਬੋਲੀ- ਤੋਂ- ਪਾਠ ਮਾਡਲ ਹੈ । ਬਾਹਰੀ ਮਾਡਲਾਂ ਰਾਹੀਂ ਰੂਟ ਕੀਤਾ — ~500 ਟੋਕਨ ਪ੍ਰਤੀ ਮਿੰਟ (ਅੱਪਸਟਰੀਮ ਲਾਗਤ ਤੋਂ 50% ਮਾਰਕਅਪ)
API ਰਾਹੀਂ ਵਰਤੋਂ
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API ਡੌਕੂਮੈਂਟੇਸ਼ਨ
API ਕੁੰਜੀ ਲਵੋ
ਅਕਸਰ ਪੁੱਛੇ ਜਾਂਦੇ ਸਵਾਲ
Fal Speech-to-Text ਬੋਲੀ ਆਡੀਓ ਨੂੰ ਪਾਠ ਵਿੱਚ ਤਬਦੀਲ ਕਰਦਾ ਹੈ। MP3, WAV, M4A, ਜਾਂ ਵੀਡਿਓ ਫਾਇਲ ਅੱਪਲੋਡ ਕਰੋ ਅਤੇ Fal Speech-to-Text ਪੂਰੀ ਤਬਦੀਲ ਅਤੇ ਚੋਣਵੀਂ SRT/VTT ਸਬਟਾਈਟਲ ਨੂੰ ਟਾਈਮ-ਸਟੈਂਪ ਨਾਲ ਵਾਪਸ ਕਰ ਦੇਵੇਗਾ।
Fal Speech-to-Text ਕਈ ਭਾਸ਼ਾਵਾਂ ਨੂੰ ਹੈਂਡਲ ਕਰਦਾ ਹੈ - Whisper-ਫੈਮਿਲੀ ਮਾਡਲ 90+, Parakeet ~25, ਹੋਰ ਵੱਖਰੇ ਹਨ। "ਆਟੋ-ਖੋਜ" ਚੁਣੋ ਜਾਂ ਸਭ ਤੋਂ ਵੱਧ ਸਹੀ ਲਈ ਭਾਸ਼ਾ ਦਿਓ।
ਸ਼ਬਦ-ਗਲਤੀ ਦਰ ਸਾਫ਼ ਅੰਗਰੇਜ਼ੀ ਆਡੀਓ ਉੱਤੇ 5-10% ਹੈ, ਝੁਰੜੀਆਂ ਜਾਂ ਜ਼ੋਰਦਾਰ ਆਡੀਓ ਉੱਤੇ 10-20% ਹੈ। ਇੱਕੋ ਢਾਂਚੇ ਦੇ ਵੱਡੇ ਵੇਰੀਐਂਟ ਸਖਤ ਮਾਮਲਿਆਂ ਉੱਤੇ ਬਹੁਤ ਵਧੀਆ ਕੰਮ ਕਰਦੇ ਹਨ - ਜਦੋਂ ਆਡੀਓ ਗਿੱਲਾ ਹੋਵੇ ਤਾਂ ਵੱਡਾ ਚੁਣੋ।
ਹਾਂ — ਹਰੇਕ ਸੈਗਮੈਂਟ ਵਿੱਚ ਸ਼ੁਰੂ/ਅਖੀਰ ਟਾਈਮ-ਸਟੈਂਪ ਸ਼ਾਮਲ ਹਨ। SRT ਜਾਂ VTT ਵਾਂਗ ਐਕਸਪੋਰਟ ਕਰੋ ਅਤੇ ਟਾਈਮ ਮੈਪ ਸਿੱਧਾ ਆਪਣੇ ਵਿਡੀਓ ਉੱਤੇ ਦਿਓ।
Fal Speech-to-Text ਇੱਕ ਪ੍ਰੀਮੀਅਮ ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਇੰਜਣ ਹੈ। ਆਡੀਓ ਲਈ ਪ੍ਰਤੀ ਮਿੰਟ ~500-1,500 ਟੋਕਨ ਹਨ। $1 = 750,000 ਟੋਕਨ ਹਨ।
MP3, WAV, M4A, FLAC, OGG, ਅਤੇ ਵੀਡਿਓ (MP4, MOV, WebM) — ਅਸੀਂ ਆਡੀਓ ਐਕਸਟਰੈਕਟ ਕਰਦੇ ਹਾਂ। ਵੱਧ ਤੋਂ ਵੱਧ 500 MB ਪ੍ਰਤੀ ਅੱਪਲੋਡ। ਲੰਬੀਆਂ ਫਾਇਲਾਂ? /audio/cut/ ਨਾਲ ਵੰਡੋ ਜਾਂ /v1/stt/batch/ ਵਰਤੋਂ।
ਸਪੀਕਰ ਡਾਇਰੀਜ਼ੇਸ਼ਨ ਇੱਕ ਵੱਖਰਾ ਪਾਸ ਹੈ - /transcribe/ ਉੱਤੇ "diarize" ਬਦਲੋ । Fal Speech-to-Text ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਨੂੰ ਹੈਂਡਲ ਕਰਦਾ ਹੈ; ਡਾਇਰੀਜ਼ੇਸ਼ਨ ਹਰੇਕ ਸੈਗਮੈਂਟ ਨੂੰ ਸਪੀਕਰ 1 / ਸਪੀਕਰ2/ ਆਦਿ ਨਾਲ ਲੇਬਲ ਕਰਦਾ ਹੈ ।
ਹਾਂ — /batch/ ਆਡੀਓ ਫਾਇਲਾਂ ਦਾ ਫੋਲਡਰ ਸਵੀਕਾਰ ਕਰਦਾ ਹੈ। ਹਰੇਕ ਟਰਾਂਸਕਰੀਪਟ ਅਸਲੀ ਫਾਇਲ ਨਾਂ ਨਾਲ /account/?tab=history ਵਿੱਚ ਪਹੁੰਚਦੀ ਹੈ। ਫੋਲਡਰ-ਲੜੀ ਸੰਭਾਲਣ ਲਈ API ਵਰਤੋਂ।
ਹਾਂ — ਆਪਣੇ ਆਡੀਓ ਨੂੰ /v1/stt/transcribe/ ਨਾਲ POST ਕਰੋ ਜਿਸ ਦਾ ਮਾਡਲ ਹੈ "Fal Speech-to-Text" । ਪਾਠ + ਸੈਗਮੈਂਟ + ਸ਼ਬਦ-ਲੇਵਲ ਟਾਈਮ-ਸਟੈਂਪ ਨਾਲ JSON ਵਾਪਸ ਕਰੋ । /api/ ਵਿੱਚ ਪੂਰਾ ਹਵਾਲਾ ਹੈ ।
ਸਵੈ-ਹੋਸਟ ਮਾਡਲ ਸਾਡੇ GPU ਉੱਤੇ ਆਡੀਓ ਰੱਖਦੇ ਹਨ; ਪ੍ਰੀਮੀਅਮ ਇੱਕ DPA ਨਾਲ ਪਾਸ ਹੁੰਦਾ ਹੈ। ਸਾਂਝ-ਵਿੰਡੋ ਤੋਂ ਬਾਅਦ ਆਡੀਓ ਹਟਾ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ (24 ਘੰਟੇ ਅਣਜਾਣ,7ਦਿਨ ਲਾਗਇਨ)। ਅਸੀਂ ਤੁਹਾਡੇ ਇੰਪੁੱਟ ਉੱਤੇ ਟਰੇਨਿੰਗ ਨਹੀਂ ਦਿੰਦੇ।
ਹਾਂ — Free.ai ਟਰਾਂਸਕਰੀਪਟ ਦਾ ਵਪਾਰਕ ਵਰਤੋਂ ਦਿੰਦਾ ਹੈ। ਤੁਹਾਨੂੰ ਆਪਣੇ ਅੱਪਲੋਡ ਕੀਤੇ ਆਡੀਓ ਲਈ ਅਧਿਕਾਰ ਲੋੜੀਦੇ ਹਨ (ਆਪਣੀ ਆਪਣੀ ਰਿਕਾਰਡਿੰਗ, ਲਾਈਸੈਂਸਿਤ ਸਮੱਗਰੀ ਜਾਂ ਮਨਜ਼ੂਰੀ ਨਾਲ ਸਮੱਗਰੀ)।
ਰੀਅਲ-ਟਾਈਮ ਫੈਕਟਰ ਲਗਭਗ 0.05-0.2× ਹੈ — 60 ਮਿੰਟ ਦਾ ਪੋਡਕਾਸਟ3-12 ਮਿੰਟ ਵਿੱਚ ਟਰਾਂਸਕਰੀਪਟ ਹੁੰਦਾ ਹੈ। ਪ੍ਰੀਮੀਅਮ ਮਾਡਲ ਅਕਸਰ ਤੇਜ਼ ਹੁੰਦੇ ਹਨ। ਟੈਬ ਨੂੰ ਬੰਦ ਕਰਨ ਲਈ ਕਤਾਰ ਬਟਨ ਵਰਤੋਂ।