ElevenLabs STT
Free.ai
·
stt
·
~500 ቶኮኖች ለ minute
ElevenLabs STT a የቃል-ወደ-ጽሑፍ ሞዴል ነው ከውጭ ሞዴሎች በመነሳት - ~ 500 ቶኮኖች በ ደቂቃ (50% በታች የፍሰት ዋጋ ላይ ማርክ)
ከAPI በመጠቀም
OpenAI-የተስማማ REST API. ቁልፍን ይፈጥሩ እና በዚህ ሞዴል በሴኮንዶች ውስጥ ይጥሩት
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/elevenlabs/speech-to-text","audio_url":"https://..."}'
ማስረጃ
የAPI ቁልፍ ማግኘት
ብዙ ጊዜ የሚጠየቁ ጥያቄዎች
ElevenLabs STT የተናገረውን ድምፅ ወደ ጽሑፍ ይለውጣል። MP3, WAV, M4A ወይም የቪዲዮ ፋይልን ጫን እና ElevenLabs STT የተሟላውን ድምፅ ተጨማሪ የ SRT/VTT ርዕሶችን ከጊዜ ምልክቶች ጋር ይመለሳል
ElevenLabs STT ብዙ ቋንቋዎችን ይይዛል - Whisper-ቤተሰብ ሞዴሎች 90+, Parakeet ~25 ይሸፍናሉ፣ ሌሎችም ይለያያሉ። "ራስ-አስተዋወቅ"ን ይምረጡ ወይም ከፍተኛ ትክክለኛነት ያለውን ቋንቋ ግለጹ።
የቃል ስህተት መጠን በጥሩ እንግሊዝኛ ድምፅ ላይ 5-10% ነው፣ በጩኸት ወይም በድምፅ ላይ 10-20% ነው። የአንድ ተመሳሳይ አርክቴክቸር ትልቅ ልዩነቶች በከባድ ጉዳዮች ላይ የበለጠ ትርጓሜ አላቸው - ድምፅ ከባድ ከሆነ ትልቅ ይውሰዱ።
አዎ - ክፍል ሁሉ የመጀመርያ/መጨረሻ ጊዜ ምልክቶች ይዟል. እንደ SRT ወይም VTT መላክ እና ጊዜዎቹን በቀጥታ ወደ ቪዲዮዎ ማሳየት
ElevenLabs STT የፕሪሚየም ትራንስክሪፕሽን ማሽን ነው. ~500-1,500 ቶኮኖች በአንድ ደቂቃ ውስጥ የድምፅ. $1 = 750,000 ቶኮኖች.
MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — ድምጹን እናወጣለን። በአንድ መላክ 500 MB ከፍ ያለ። ረጅም ፋይሎች? /audio/cut/ ወይም /v1/stt/batch/ ይጠቀሙ።
የተናጋሪው መዝገብ ቤት የተለየ መውጫ ነው - "diarize"ን /transcribe/ ላይ ይጫኑ። ElevenLabs STT መዝገብ ቤቱን ይይዛል፤ መዝገብ ቤት ክፍል ሁሉንም በተናጋሪ 1 / ተናጋሪ 2 / ወዘተ.
አዎ - /batch/ የድምፅ ፋይሎችን ፎልደር ይቀበላል. እያንዳንዱ ትራንስክሪፕት በ /account/?tab=history ውስጥ በፋይል ስም ይመጣል. ለፎልደር-ዘንግ ጥበቃ APIን ይጠቀሙ
አዎ - የድምፅ መልዕክቱን ወደ /v1/stt/transcribe/ በሞዴል "ElevenLabs STT" ይላኩ። JSONን በጽሑፍ + ክፍሎች + ቃል-ደረጃ ጊዜ-አስማሚዎች ይመለሳል። /api/ ሙሉውን ማመልከት አለው።
የራስ-አስተናጋጅ ሞዴሎች ድምፅን በጂፒዩዎች ላይ ያቆያሉ፤ ፕሪሚየም ከዲፒአ ጋር ይሻገራል። ድምፅ ከጋራ-አስተናጋጅ-አስተ
አዎ - Free.ai የጽሑፍ ቅጂዎችን የቢዝነስ ጥቅም ይሰጣል. ለቀረበው ድምፅ መብቶች (የራስዎ መዝገብ፣ የሊስንስ ቁሳቁስ ወይም የባለቤትነት ይዘት) ያስፈልጋሉ
የጊዜ መጠን 0.05-0.2× ነው - 60 ደቂቃ የፖድካስት 3-12 ደቂቃዎች ውስጥ ይጻፋል. የፕሪሚየም ሞዴሎች ብዙውን ጊዜ በብቃት ይጨርሳሉ. መክፈቻውን ለመክፈት የፍለጋ ቁልፉን ይጠቀሙ.