GOT-OCR v2
Free.ai
·
ocr
·
~500 토큰당 page
GOT-OCR v2는 an OCR 모델입니다. 외부 모델을 통해 라우팅 — ~500 토큰 페이지당 (업스트림 비용에 대한 50% 마킹).
API를 통해 사용
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/ocr/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/got-ocr/v2","prompt":"your prompt here"}'
API 문서화
API 키 가져오기
자주 묻는 질문
GOT-OCR v2은 이미지와 PDF에서 텍스트를 추출합니다. 스캔된 페이지, 스크린샷 또는 문서의 사진을 업로드하면 GOT-OCR v2이 텍스트를 반환합니다. 줄바꿈과 (기능이 있는 엔진에서) 테이블, 공식 및 구조를 보존합니다.
GOT-OCR v2 는 수십개의 스크립트를 처리합니다 — 라틴어, 키릴 문자, CJK, 아랍어, 데바나가리, 그리고 더 많은 것들. /ocr/ 랜딩은 엔진별로 전체 언어 목록을 가지고 있습니다.
TrOCR과 현대의 변환기 기반 엔진은 레거시 테서랙트보다 손글씨에 있어서 눈에 띄게 낫다.
레이아웃 인식 엔진(GOT-OCR, Marker, Florence-2)은 Markdown/HTML 테이블과 공식에 대한 LaTeX를 반환합니다. 일반 텍스트 엔진은 구조 없는 텍스트를 반환합니다. 이 모델의 출력 모드를 확인하십시오.
GOT-OCR v2은 프리미엄 OCR 엔진입니다. 페이지당 약 500~1,500 토큰. $1 = 750,000 토큰.
PNG, JPG, WebP, HEIC, BMP, 50MB까지의 단일 페이지 및 다중 페이지 PDF를 지원합니다. 편차가 있거나 회전된 페이지는 추출 전에 자동으로 수정됩니다.
문자 정확도는 일반적으로 깨끗한 인쇄된 페이지에서 98% 이상이며, 저해상도 사진, 심하게 편향된 스캔, 또는 특이한 글꼴에서 떨어집니다. 정확도가 중요할 때는 /ocr/compare/ 에서 엔진을 비교하십시오.
예 — /batch/ 는 이미지/PDF 폴더를 받아들입니다. 각 추출은 /account/?tab=history 에 놓입니다. 폴더 트리 보존을 위해 API를 사용합니다.
예 — 파일을 /v1/ocr/로 POST하고 model="GOT-OCR v2"을 사용합니다. 텍스트 + (지원되는 경우) 레이아웃 + 단어 수준 경계 상자가 포함된 JSON을 반환합니다. /api/ 에는 전체 참조가 있습니다.
셀프 호스팅 모델은 파일을 GPU에 보관하며, 프리미엄 모델은 DPA를 통해 통과합니다. 공유 창이 종료된 후 문서가 삭제됩니다.
예 — Free.ai은 추출된 텍스트의 상업적 사용을 허용합니다. 원본 문서에 대한 권리가 필요합니다.
일반적으로 페이지당 1~5초. 레이아웃 인식 엔진(표, 수학)은 더 오래 걸립니다. 다중 페이지 PDF는 대략 선형으로 확대됩니다.