Wizper (Whisper v3)
Free.ai
·
stt
·
~500 ਟੋਕਨਾਂ ਪ੍ਰਤੀ minute
Wizper (Whisper v3) a ਬੋਲੀ- ਤੋਂ- ਪਾਠ ਮਾਡਲ ਹੈ । ਬਾਹਰੀ ਮਾਡਲਾਂ ਰਾਹੀਂ ਰੂਟ ਕੀਤਾ — ~500 ਟੋਕਨ ਪ੍ਰਤੀ ਮਿੰਟ (ਅੱਪਸਟਰੀਮ ਲਾਗਤ ਤੋਂ 50% ਮਾਰਕਅਪ)
API ਰਾਹੀਂ ਵਰਤੋਂ
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/wizper","audio_url":"https://..."}'
API ਡੌਕੂਮੈਂਟੇਸ਼ਨ
API ਕੁੰਜੀ ਲਵੋ
ਅਕਸਰ ਪੁੱਛੇ ਜਾਂਦੇ ਸਵਾਲ
Wizper (Whisper v3) ਬੋਲੀ ਆਡੀਓ ਨੂੰ ਪਾਠ ਵਿੱਚ ਤਬਦੀਲ ਕਰਦਾ ਹੈ। MP3, WAV, M4A, ਜਾਂ ਵੀਡਿਓ ਫਾਇਲ ਅੱਪਲੋਡ ਕਰੋ ਅਤੇ Wizper (Whisper v3) ਪੂਰੀ ਤਬਦੀਲ ਅਤੇ ਚੋਣਵੀਂ SRT/VTT ਸਬਟਾਈਟਲ ਨੂੰ ਟਾਈਮ-ਸਟੈਂਪ ਨਾਲ ਵਾਪਸ ਕਰ ਦੇਵੇਗਾ।
Wizper (Whisper v3) ਕਈ ਭਾਸ਼ਾਵਾਂ ਨੂੰ ਹੈਂਡਲ ਕਰਦਾ ਹੈ - Whisper-ਫੈਮਿਲੀ ਮਾਡਲ 90+, Parakeet ~25, ਹੋਰ ਵੱਖਰੇ ਹਨ। "ਆਟੋ-ਖੋਜ" ਚੁਣੋ ਜਾਂ ਸਭ ਤੋਂ ਵੱਧ ਸਹੀ ਲਈ ਭਾਸ਼ਾ ਦਿਓ।
ਸ਼ਬਦ-ਗਲਤੀ ਦਰ ਸਾਫ਼ ਅੰਗਰੇਜ਼ੀ ਆਡੀਓ ਉੱਤੇ 5-10% ਹੈ, ਝੁਰੜੀਆਂ ਜਾਂ ਜ਼ੋਰਦਾਰ ਆਡੀਓ ਉੱਤੇ 10-20% ਹੈ। ਇੱਕੋ ਢਾਂਚੇ ਦੇ ਵੱਡੇ ਵੇਰੀਐਂਟ ਸਖਤ ਮਾਮਲਿਆਂ ਉੱਤੇ ਬਹੁਤ ਵਧੀਆ ਕੰਮ ਕਰਦੇ ਹਨ - ਜਦੋਂ ਆਡੀਓ ਗਿੱਲਾ ਹੋਵੇ ਤਾਂ ਵੱਡਾ ਚੁਣੋ।
ਹਾਂ — ਹਰੇਕ ਸੈਗਮੈਂਟ ਵਿੱਚ ਸ਼ੁਰੂ/ਅਖੀਰ ਟਾਈਮ-ਸਟੈਂਪ ਸ਼ਾਮਲ ਹਨ। SRT ਜਾਂ VTT ਵਾਂਗ ਐਕਸਪੋਰਟ ਕਰੋ ਅਤੇ ਟਾਈਮ ਮੈਪ ਸਿੱਧਾ ਆਪਣੇ ਵਿਡੀਓ ਉੱਤੇ ਦਿਓ।
Wizper (Whisper v3) ਇੱਕ ਪ੍ਰੀਮੀਅਮ ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਇੰਜਣ ਹੈ। ਆਡੀਓ ਲਈ ਪ੍ਰਤੀ ਮਿੰਟ ~500-1,500 ਟੋਕਨ ਹਨ। $1 = 750,000 ਟੋਕਨ ਹਨ।
MP3, WAV, M4A, FLAC, OGG, ਅਤੇ ਵੀਡਿਓ (MP4, MOV, WebM) — ਅਸੀਂ ਆਡੀਓ ਐਕਸਟਰੈਕਟ ਕਰਦੇ ਹਾਂ। ਵੱਧ ਤੋਂ ਵੱਧ 500 MB ਪ੍ਰਤੀ ਅੱਪਲੋਡ। ਲੰਬੀਆਂ ਫਾਇਲਾਂ? /audio/cut/ ਨਾਲ ਵੰਡੋ ਜਾਂ /v1/stt/batch/ ਵਰਤੋਂ।
ਸਪੀਕਰ ਡਾਇਰੀਜ਼ੇਸ਼ਨ ਇੱਕ ਵੱਖਰਾ ਪਾਸ ਹੈ - /transcribe/ ਉੱਤੇ "diarize" ਬਦਲੋ । Wizper (Whisper v3) ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਨੂੰ ਹੈਂਡਲ ਕਰਦਾ ਹੈ; ਡਾਇਰੀਜ਼ੇਸ਼ਨ ਹਰੇਕ ਸੈਗਮੈਂਟ ਨੂੰ ਸਪੀਕਰ 1 / ਸਪੀਕਰ2/ ਆਦਿ ਨਾਲ ਲੇਬਲ ਕਰਦਾ ਹੈ ।
ਹਾਂ — /batch/ ਆਡੀਓ ਫਾਇਲਾਂ ਦਾ ਫੋਲਡਰ ਸਵੀਕਾਰ ਕਰਦਾ ਹੈ। ਹਰੇਕ ਟਰਾਂਸਕਰੀਪਟ ਅਸਲੀ ਫਾਇਲ ਨਾਂ ਨਾਲ /account/?tab=history ਵਿੱਚ ਪਹੁੰਚਦੀ ਹੈ। ਫੋਲਡਰ-ਲੜੀ ਸੰਭਾਲਣ ਲਈ API ਵਰਤੋਂ।
ਹਾਂ — ਆਪਣੇ ਆਡੀਓ ਨੂੰ /v1/stt/transcribe/ ਨਾਲ POST ਕਰੋ ਜਿਸ ਦਾ ਮਾਡਲ ਹੈ "Wizper (Whisper v3)" । ਪਾਠ + ਸੈਗਮੈਂਟ + ਸ਼ਬਦ-ਲੇਵਲ ਟਾਈਮ-ਸਟੈਂਪ ਨਾਲ JSON ਵਾਪਸ ਕਰੋ । /api/ ਵਿੱਚ ਪੂਰਾ ਹਵਾਲਾ ਹੈ ।
ਸਵੈ-ਹੋਸਟ ਮਾਡਲ ਸਾਡੇ GPU ਉੱਤੇ ਆਡੀਓ ਰੱਖਦੇ ਹਨ; ਪ੍ਰੀਮੀਅਮ ਇੱਕ DPA ਨਾਲ ਪਾਸ ਹੁੰਦਾ ਹੈ। ਸਾਂਝ-ਵਿੰਡੋ ਤੋਂ ਬਾਅਦ ਆਡੀਓ ਹਟਾ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ (24 ਘੰਟੇ ਅਣਜਾਣ,7ਦਿਨ ਲਾਗਇਨ)। ਅਸੀਂ ਤੁਹਾਡੇ ਇੰਪੁੱਟ ਉੱਤੇ ਟਰੇਨਿੰਗ ਨਹੀਂ ਦਿੰਦੇ।
ਹਾਂ — Free.ai ਟਰਾਂਸਕਰੀਪਟ ਦਾ ਵਪਾਰਕ ਵਰਤੋਂ ਦਿੰਦਾ ਹੈ। ਤੁਹਾਨੂੰ ਆਪਣੇ ਅੱਪਲੋਡ ਕੀਤੇ ਆਡੀਓ ਲਈ ਅਧਿਕਾਰ ਲੋੜੀਦੇ ਹਨ (ਆਪਣੀ ਆਪਣੀ ਰਿਕਾਰਡਿੰਗ, ਲਾਈਸੈਂਸਿਤ ਸਮੱਗਰੀ ਜਾਂ ਮਨਜ਼ੂਰੀ ਨਾਲ ਸਮੱਗਰੀ)।
ਰੀਅਲ-ਟਾਈਮ ਫੈਕਟਰ ਲਗਭਗ 0.05-0.2× ਹੈ — 60 ਮਿੰਟ ਦਾ ਪੋਡਕਾਸਟ3-12 ਮਿੰਟ ਵਿੱਚ ਟਰਾਂਸਕਰੀਪਟ ਹੁੰਦਾ ਹੈ। ਪ੍ਰੀਮੀਅਮ ਮਾਡਲ ਅਕਸਰ ਤੇਜ਼ ਹੁੰਦੇ ਹਨ। ਟੈਬ ਨੂੰ ਬੰਦ ਕਰਨ ਲਈ ਕਤਾਰ ਬਟਨ ਵਰਤੋਂ।