Wizper (Whisper v3)

Free.ai · stt · ~500 الرموز لكل minute

تحميل الصوت

أسقط ملفاً صوتياً أو فيديو، أو لصق عنوان URL أدناه

~500 الرموز لكل minute

يعمل بحرية على وحدات المعالجة الرسومية لدينا رفع مستوى الخدمة Wizper (Whisper v3) →

Wizper (Whisper v3) هو a نموذج تحويل الكلام إلى نص. Routed through external models — ~500 tokens في الدقيقة (50% markup over upstream cost).

الاستخدام عن طريق واجهة البرمجة

REST API متوافق مع OpenAI. تولد مفتاحاً وتدعو هذا النموذج في ثوانٍ.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/wizper","audio_url":"https://..."}'

وثائق API احصل على مفتاح API

نماذج مماثلة

ElevenLabs STT

Fal Speech-to-Text

جميع النماذج →

الأسئلة المتكررة

Wizper (Whisper v3) يقوم بنسخ الصوت المنطوق إلى نص. قم بتحميل ملف MP3 أو WAV أو M4A أو فيديو وWizper (Whisper v3) يعيد النص الكامل بالإضافة إلى النصوص الجانبية الاختيارية SRT/VTT مع الأختام الزمنية.

Wizper (Whisper v3) يتعامل مع عشرات اللغات — Whisper-family models cover 90+, Parakeet covers ~25, others vary.

معدل أخطاء الكلمات هو 5-10% على الصوت الإنجليزي النظيف، و 10-20% على الصوت المضطرب أو الملفت. المتغيرات الكبيرة من نفس البنية تفعل بشكل أفضل على الحالات الصعبة - اختار أكبر عندما يكون الصوت قاسيًا.

نعم - كل جزء يتضمن بداية / نهاية الختم الزمني. تصدير ك SRT أو VTT وخريطة الزمن مباشرة على الفيديو.

Wizper (Whisper v3) هو محرك نسخ متميز. حوالي ~500-1,500 رموز في الدقيقة من الصوت. $1 = 750,000 رموز.

MP3, WAV, M4A, FLAC, OGG, plus video (MP4, MOV, WebM) — نقوم باستخراج الصوت. الحد الأقصى 500 ميغابايت لكل تحميل. الملفات الأطول؟ تقسيم مع /audio/cut/ أو استخدام /v1/stt/batch/.

Wizper (Whisper v3) يتعامل مع النسخ؛ وسم الترجمة لكل جزء مع المتحدث 1 / المتحدث 2 / إلخ.

نعم - /batch/ يقبل مجلدا من الملفات الصوتية. كل نسخة من النص تصل إلى /account/?tab=history مع اسم الملف الأصلي. للحفاظ على شجرة المجلد، استخدم API.

نعم — أرسل صوتك إلى /v1/stt/transcribe/ مع النموذج "Wizper (Whisper v3)". يعيد JSON مع النص + الأجزاء + الختم الزمني على مستوى الكلمة. /api/ لديها المرجع الكامل.

النماذج المستضافة ذاتياً تحتفظ بالصوت على وحدات المعالجة الرسومية الخاصة بنا؛ ويتم نقل الصوت من خلال DPA. ويتم حذف الصوت بعد نافذة المشاركة (24 ساعة من دون تسجيل الدخول، 7 أيام من التسجيل).

نعم — Free.ai يمنح الاستخدام التجاري للنصوص. أنت بحاجة إلى حقوق على الصوت الذي قمت برفعه (تسجيلك الخاص، أو مواد مرخصة، أو محتوى مع موافقة).

عامل الوقت الحقيقي هو حوالي 0.05-0.2 × - 60 دقيقة من البث النصي في 3-12 دقيقة. النماذج العالية غالبا ما تنتهي أسرع.

Wizper (Whisper v3)

الاستخدام عن طريق واجهة البرمجة

نماذج مماثلة

الأسئلة المتكررة

ماذا تفعل؟

كم عدد اللغات التي يدعمها Wizper (Whisper v3)؟

ما مدى دقة Wizper (Whisper v3)؟

هل يتضمن Wizper (Whisper v3) ختما زمنيا؟

كم تكلف Wizper (Whisper v3) في الدقيقة؟

ما هي الصيغ الصوتية التي يمكنني تحميلها على Wizper (Whisper v3)؟

هل يمكن لـ Wizper (Whisper v3) تحديد هوية متكلمين مختلفين؟

هل يمكنني أن أقوم بنسخ النصوص مع Wizper (Whisper v3)؟

هل هناك رابطة بين التطبيقات لـ Wizper (Whisper v3)؟

ماذا عن الخصوصية عندما أكتب مع Wizper (Whisper v3)؟

هل مخرجات Wizper (Whisper v3) آمنة للاستخدام التجاري؟

كم يستغرق Wizper (Whisper v3)؟

حصل على 10,000 رموز مجانية

انتظر - احصل على 10K رموز مجانية!

تريد المزيد؟