Wizper (Whisper v3)
Free.ai
·
stt
·
~500 ટોકન પ્રતિ minute
Wizper (Whisper v3) એ a દ્રશ્ય-થી-લખાણ મોડેલ છે. બાહ્ય મોડેલો મારફતે માર્ગદર્શિત — ~500 ટોકન્સ મિનિટ (ઉપરના ખર્ચ પર 50% માર્કઅપ).
API મારફતે વાપરો
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/wizper","audio_url":"https://..."}'
API દસ્તાવેજ
API કી મેળવો
વારંવાર પૂછાતા પ્રશ્નો
Wizper (Whisper v3) બોલાયેલ ઓડિયો લખાણમાં રૂપાંતરિત કરે છે. MP3, WAV, M4A, અથવા વિડિયો ફાઈલ અપલોડ કરો અને Wizper (Whisper v3) સમયમુદ્રાઓ સાથે વૈકલ્પિક SRT/VTT ઉપશીર્ષકો સાથે સંપૂર્ણ રૂપાંતરણ બરાબર પાછું આપે છે.
Wizper (Whisper v3) ભાષાઓની ડઝનોને સંભાળે છે - Whisper-પરિવાર મોડેલો 90+, Parakeet ~25 ને કવર કરે છે, બીજાઓ બદલાય છે. "આપમેળે-શોધ" પસંદ કરો અથવા ઊંચી ચોકસાઈ માટે ભાષા સ્પષ્ટ કરો.
શબ્દ-ક્ષતિ દર સાફ અંગ્રેજી ઓડિયો પર 5–10% છે, ધુમાડાવાળા અથવા ભારિત ઓડિયો પર 10–20%. એ જ આર્કિટેક્ચરના મોટાં પ્રકારો કઠિન કેસોમાં અર્થપૂર્ણ રીતે સારાં કરે છે - જ્યારે ઓડિયો કઠિન હોય ત્યારે મોટું પસંદ કરો.
હા — દરેક સેગમેન્ટ શરૂઆત/અંત સમયસમાપ્તિઓ સમાવે છે. SRT અથવા VTT તરીકે નિકાસ કરો અને સમય નકશા સીધા તમારા વિડિયો પર.
Wizper (Whisper v3) એ પ્રીમિયમ ટ્રાન્સક્રિપ્શન એન્જિન છે. ઓડિયોનાં મિનિટમાં ~500–1,500 ટોકન વિશે. $1 = 750,000 ટોકન.
MP3, WAV, M4A, FLAC, OGG, અને વીડિયો (MP4, MOV, WebM) — અમે ઓડિયો કાઢી નાંખીએ છીએ. મહત્તમ ૫૦૦ MB પ્રતિ અપલોડ. લાંબી ફાઈલો? /audio/cut/ સાથે વિભાજીત કરો અથવા /v1/stt/batch/ વાપરો.
સ્પીકર ડાયરીકરણ અલગ પાસવર્ડ છે - /transcribe/ પર "diarize" બદલો. Wizper (Whisper v3) લખાણને સંભાળે છે; ડાયરીકરણ સ્પીકર ૧ / સ્પીકર ૨ / વગેરે સાથે દરેક સેગમેન્ટને લેબલ કરે છે.
હા — /batch/ ઓડિયો ફાઈલોનું ફોલ્ડર સ્વીકારે છે. દરેક ટ્રાન્સક્રિપ્ટ મૂળભૂત ફાઈલનામ સાથે /account/?tab=history માં સ્થિત થાય છે. ફોલ્ડર-ટ્રિ સંગ્રહ માટે API વાપરો.
હા — મોડેલ="Wizper (Whisper v3)" સાથે /v1/stt/transcribe/ પર તમારું ઓડિયો POST કરો. લખાણ + સેગમેન્ટ્સ + શબ્દ-સ્તર સમયસૂચક સાથે JSON ને પાછું આપે છે. /api/ એ સંપૂર્ણ સંદર્ભ છે.
સ્વયં-હોસ્ટ થયેલ મોડેલો અમારા GPUs પર ઓડિયો રાખે છે; પ્રીમિયમ DPA સાથે પસાર થાય છે. ઓડિયો વહેંચણી-વિન્ડો પછી કાઢી નાંખવામાં આવે છે (24h ano, 7d પ્રવેશ-માં). અમે તમારા ઇનપુટ્સ પર તાલીમ આપતા નથી.
Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).
વાસ્તવિક સમય ઘટક લગભગ ૦.૦૫–૦.૨× છે — ૬૦-મિનિટની પોડકાસ્ટ ૩–૧૨ મિનિટમાં રૂપાંતરિત કરે છે. પ્રીમિયમ મોડેલો ઘણીવાર ઝડપથી સમાપ્ત થાય છે. ટેબને બંધ કરવા માટે કતાર બટનનો ઉપયોગ કરો.