ElevenLabs STT
Free.ai
·
stt
·
~500 ਟੋਕਨਾਂ ਪ੍ਰਤੀ minute
ElevenLabs STT a ਬੋਲੀ- ਤੋਂ- ਪਾਠ ਮਾਡਲ ਹੈ । ਬਾਹਰੀ ਮਾਡਲਾਂ ਰਾਹੀਂ ਰੂਟ ਕੀਤਾ — ~500 ਟੋਕਨ ਪ੍ਰਤੀ ਮਿੰਟ (ਅੱਪਸਟਰੀਮ ਲਾਗਤ ਤੋਂ 50% ਮਾਰਕਅਪ)
API ਰਾਹੀਂ ਵਰਤੋਂ
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
API ਡੌਕੂਮੈਂਟੇਸ਼ਨ
API ਕੁੰਜੀ ਲਵੋ
ਅਕਸਰ ਪੁੱਛੇ ਜਾਂਦੇ ਸਵਾਲ
ElevenLabs STT ਬੋਲੀ ਆਡੀਓ ਨੂੰ ਪਾਠ ਵਿੱਚ ਤਬਦੀਲ ਕਰਦਾ ਹੈ। MP3, WAV, M4A, ਜਾਂ ਵੀਡਿਓ ਫਾਇਲ ਅੱਪਲੋਡ ਕਰੋ ਅਤੇ ElevenLabs STT ਪੂਰੀ ਤਬਦੀਲ ਅਤੇ ਚੋਣਵੀਂ SRT/VTT ਸਬਟਾਈਟਲ ਨੂੰ ਟਾਈਮ-ਸਟੈਂਪ ਨਾਲ ਵਾਪਸ ਕਰ ਦੇਵੇਗਾ।
ElevenLabs STT ਕਈ ਭਾਸ਼ਾਵਾਂ ਨੂੰ ਹੈਂਡਲ ਕਰਦਾ ਹੈ - Whisper-ਫੈਮਿਲੀ ਮਾਡਲ 90+, Parakeet ~25, ਹੋਰ ਵੱਖਰੇ ਹਨ। "ਆਟੋ-ਖੋਜ" ਚੁਣੋ ਜਾਂ ਸਭ ਤੋਂ ਵੱਧ ਸਹੀ ਲਈ ਭਾਸ਼ਾ ਦਿਓ।
ਸ਼ਬਦ-ਗਲਤੀ ਦਰ ਸਾਫ਼ ਅੰਗਰੇਜ਼ੀ ਆਡੀਓ ਉੱਤੇ 5-10% ਹੈ, ਝੁਰੜੀਆਂ ਜਾਂ ਜ਼ੋਰਦਾਰ ਆਡੀਓ ਉੱਤੇ 10-20% ਹੈ। ਇੱਕੋ ਢਾਂਚੇ ਦੇ ਵੱਡੇ ਵੇਰੀਐਂਟ ਸਖਤ ਮਾਮਲਿਆਂ ਉੱਤੇ ਬਹੁਤ ਵਧੀਆ ਕੰਮ ਕਰਦੇ ਹਨ - ਜਦੋਂ ਆਡੀਓ ਗਿੱਲਾ ਹੋਵੇ ਤਾਂ ਵੱਡਾ ਚੁਣੋ।
ਹਾਂ — ਹਰੇਕ ਸੈਗਮੈਂਟ ਵਿੱਚ ਸ਼ੁਰੂ/ਅਖੀਰ ਟਾਈਮ-ਸਟੈਂਪ ਸ਼ਾਮਲ ਹਨ। SRT ਜਾਂ VTT ਵਾਂਗ ਐਕਸਪੋਰਟ ਕਰੋ ਅਤੇ ਟਾਈਮ ਮੈਪ ਸਿੱਧਾ ਆਪਣੇ ਵਿਡੀਓ ਉੱਤੇ ਦਿਓ।
ElevenLabs STT ਇੱਕ ਪ੍ਰੀਮੀਅਮ ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਇੰਜਣ ਹੈ। ਆਡੀਓ ਲਈ ਪ੍ਰਤੀ ਮਿੰਟ ~500-1,500 ਟੋਕਨ ਹਨ। $1 = 750,000 ਟੋਕਨ ਹਨ।
MP3, WAV, M4A, FLAC, OGG, ਅਤੇ ਵੀਡਿਓ (MP4, MOV, WebM) — ਅਸੀਂ ਆਡੀਓ ਐਕਸਟਰੈਕਟ ਕਰਦੇ ਹਾਂ। ਵੱਧ ਤੋਂ ਵੱਧ 500 MB ਪ੍ਰਤੀ ਅੱਪਲੋਡ। ਲੰਬੀਆਂ ਫਾਇਲਾਂ? /audio/cut/ ਨਾਲ ਵੰਡੋ ਜਾਂ /v1/stt/batch/ ਵਰਤੋਂ।
ਸਪੀਕਰ ਡਾਇਰੀਜ਼ੇਸ਼ਨ ਇੱਕ ਵੱਖਰਾ ਪਾਸ ਹੈ - /transcribe/ ਉੱਤੇ "diarize" ਬਦਲੋ । ElevenLabs STT ਟਰਾਂਸਕਰੀਪਸ਼ਨ ਨੂੰ ਹੈਂਡਲ ਕਰਦਾ ਹੈ; ਡਾਇਰੀਜ਼ੇਸ਼ਨ ਹਰੇਕ ਸੈਗਮੈਂਟ ਨੂੰ ਸਪੀਕਰ 1 / ਸਪੀਕਰ2/ ਆਦਿ ਨਾਲ ਲੇਬਲ ਕਰਦਾ ਹੈ ।
ਹਾਂ — /batch/ ਆਡੀਓ ਫਾਇਲਾਂ ਦਾ ਫੋਲਡਰ ਸਵੀਕਾਰ ਕਰਦਾ ਹੈ। ਹਰੇਕ ਟਰਾਂਸਕਰੀਪਟ ਅਸਲੀ ਫਾਇਲ ਨਾਂ ਨਾਲ /account/?tab=history ਵਿੱਚ ਪਹੁੰਚਦੀ ਹੈ। ਫੋਲਡਰ-ਲੜੀ ਸੰਭਾਲਣ ਲਈ API ਵਰਤੋਂ।
ਹਾਂ — ਆਪਣੇ ਆਡੀਓ ਨੂੰ /v1/stt/transcribe/ ਨਾਲ POST ਕਰੋ ਜਿਸ ਦਾ ਮਾਡਲ ਹੈ "ElevenLabs STT" । ਪਾਠ + ਸੈਗਮੈਂਟ + ਸ਼ਬਦ-ਲੇਵਲ ਟਾਈਮ-ਸਟੈਂਪ ਨਾਲ JSON ਵਾਪਸ ਕਰੋ । /api/ ਵਿੱਚ ਪੂਰਾ ਹਵਾਲਾ ਹੈ ।
ਸਵੈ-ਹੋਸਟ ਮਾਡਲ ਸਾਡੇ GPU ਉੱਤੇ ਆਡੀਓ ਰੱਖਦੇ ਹਨ; ਪ੍ਰੀਮੀਅਮ ਇੱਕ DPA ਨਾਲ ਪਾਸ ਹੁੰਦਾ ਹੈ। ਸਾਂਝ-ਵਿੰਡੋ ਤੋਂ ਬਾਅਦ ਆਡੀਓ ਹਟਾ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ (24 ਘੰਟੇ ਅਣਜਾਣ,7ਦਿਨ ਲਾਗਇਨ)। ਅਸੀਂ ਤੁਹਾਡੇ ਇੰਪੁੱਟ ਉੱਤੇ ਟਰੇਨਿੰਗ ਨਹੀਂ ਦਿੰਦੇ।
ਹਾਂ — Free.ai ਟਰਾਂਸਕਰੀਪਟ ਦਾ ਵਪਾਰਕ ਵਰਤੋਂ ਦਿੰਦਾ ਹੈ। ਤੁਹਾਨੂੰ ਆਪਣੇ ਅੱਪਲੋਡ ਕੀਤੇ ਆਡੀਓ ਲਈ ਅਧਿਕਾਰ ਲੋੜੀਦੇ ਹਨ (ਆਪਣੀ ਆਪਣੀ ਰਿਕਾਰਡਿੰਗ, ਲਾਈਸੈਂਸਿਤ ਸਮੱਗਰੀ ਜਾਂ ਮਨਜ਼ੂਰੀ ਨਾਲ ਸਮੱਗਰੀ)।
ਰੀਅਲ-ਟਾਈਮ ਫੈਕਟਰ ਲਗਭਗ 0.05-0.2× ਹੈ — 60 ਮਿੰਟ ਦਾ ਪੋਡਕਾਸਟ3-12 ਮਿੰਟ ਵਿੱਚ ਟਰਾਂਸਕਰੀਪਟ ਹੁੰਦਾ ਹੈ। ਪ੍ਰੀਮੀਅਮ ਮਾਡਲ ਅਕਸਰ ਤੇਜ਼ ਹੁੰਦੇ ਹਨ। ਟੈਬ ਨੂੰ ਬੰਦ ਕਰਨ ਲਈ ਕਤਾਰ ਬਟਨ ਵਰਤੋਂ।