Wizper (Whisper v3)
Free.ai
·
stt
·
~500 토큰당 minute
Wizper (Whisper v3)는 a 음성- 텍스트 모델입니다. 외부 모델을 통해 라우팅 — ~500 토큰 분당 (업스트림 비용에 대한 50% 마킹).
API를 통해 사용
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/wizper","audio_url":"https://..."}'
API 문서화
API 키 가져오기
자주 묻는 질문
Wizper (Whisper v3)은 말하는 오디오를 텍스트로 변환합니다. MP3, WAV, M4A 또는 비디오 파일을 업로드하면 Wizper (Whisper v3)은 전체 녹음본과 타임스탬프가 있는 선택적 SRT/VTT 자막을 반환합니다.
Wizper (Whisper v3)은 수십개의 언어를 처리합니다. Whisper-family 모델은 90% 이상을 커버하며, Parakeet은 약 25%를 커버하며, 다른 모델은 다릅니다.
단어 오류율은 깨끗한 영어 오디오에서 5–10%, 시끄러운 오디오 또는 악센트 오디오에서 10–20%입니다. 동일한 아키텍처의 큰 변형은 하드 케이스에서 의미 있게 더 잘 작동합니다. 오디오가 거칠 때 큰 변형을 선택하십시오.
예 — 모든 세그먼트에는 시작/종료 타임스탬프가 포함되어 있습니다. SRT 또는 VTT로 내보내면 타임스탬프가 비디오에 바로 표시됩니다.
Wizper (Whisper v3)은 프리미엄 녹음 엔진입니다. 오디오 분당 약 500~1,500 토큰. $1 = 750,000 토큰.
MP3, WAV, M4A, FLAC, OGG, 플러스 비디오 (MP4, MOV, WebM) — 우리는 오디오를 추출합니다. 업로드 당 최대 500 MB. 긴 파일? /audio/cut/로 분할하거나 /v1/stt/batch/를 사용합니다.
스피커 디아리제이션은 별도의 패스입니다. /transcribe/에서 "diarize"를 토글하십시오. Wizper (Whisper v3) 는 전사를 처리합니다. 디아리제이션은 각 세그먼트에 스피커 1 / 스피커 2 / 등의 레이블을 붙입니다.
예 — /batch/ 는 오디오 파일의 폴더를 받아들입니다. 각각의 녹음은 원래 파일 이름과 함께 /account/?tab=history 에 놓입니다. 폴더 트리 보존을 위해 API를 사용합니다.
예 — 오디오를 /v1/stt/transcribe/로 POST하고 model="Wizper (Whisper v3)"을 사용합니다. 텍스트 + 세그먼트 + 단어 수준 타임스탬프가 포함된 JSON을 반환합니다. /api/ 에는 전체 참조가 있습니다.
셀프 호스팅 모델은 GPU에 오디오를 보관하며, 프리미엄 모델은 DPA를 통해 오디오를 전송합니다. 오디오는 공유 창이 종료된 후 삭제됩니다(24시간 익명, 7일 로그인).
네 — Free.ai은 녹음본의 상업적 사용을 허용합니다. 업로드한 오디오(자신의 녹음, 라이선스 자료 또는 동의를 받은 콘텐츠)에 대한 권리가 필요합니다.
실시간 요소는 대략 0.05–0.2×입니다. 60분짜리 팟캐스트는 3–12분이면 녹음이 완료됩니다. 프리미엄 모델은 종종 더 빨리 끝납니다.