GOT-OCR v2
Free.ai
·
ocr
·
~500 token mỗi page
GOT-OCR v2 is a Mô hình OCR. Đường dẫn qua các mô hình bên ngoài — ~500 tokens mỗi trang (50% markup trên chi phí lên nguồn).
Dùng qua API
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/ocr/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/got-ocr/v2","prompt":"your prompt here"}'
Tài liệu API
Lấy khóa API
Câu hỏi thường gặp
GOT-OCR v2 trích xuất văn bản từ hình ảnh và PDF. Tải lên một trang đã quét, một hình chụp màn hình, hoặc một bức ảnh của một tài liệu và GOT-OCR v2 trả lại văn bản — bảo tồn các đoạn kết và (trên các động cơ có khả năng) bảng, công thức, và cấu trúc.
GOT-OCR v2 xử lý hàng chục kiểu chữ — Latin, Cyrillic, CJK, Arabic, Devanagari, và nhiều hơn nữa. /ocr/ landing có danh sách đầy đủ các ngôn ngữ cho mỗi engine.
Có cho chữ viết tay kiểu in sạch; chữ nghiêng và chữ viết tắt khó hơn. TrOCR và các động cơ dựa trên biến đổi hiện đại là tốt hơn đáng kể so với Tesseract cũ về chữ viết tay.
Các động cơ nhận biết bố cục (GOT-OCR, Marker, Florence-2) trả về bảng Markdown/HTML và LaTeX cho các công thức. Các động cơ văn bản đơn giản trả lại văn bản không có cấu trúc — kiểm tra chế độ xuất của mô hình này.
GOT-OCR v2 là một công cụ OCR cao cấp. Khoảng ~500–1,500 token mỗi trang. $1 = 750,000 token.
PNG, JPG, WebP, HEIC, BMP, cộng với PDF một trang và nhiều trang lên đến 50 MB. Các trang bị lệch hoặc xoay sẽ được tự động sửa trước khi trích xuất.
Độ chính xác của các ký tự thường là >98% trên các trang in sạch, rơi trên ảnh độ phân giải thấp, scan nghiêm trọng, hoặc phông chữ bất thường. So sánh các động cơ trên /ocr/compare/ khi độ chính xác quan trọng.
Có — /batch/ chấp nhận một thư mục hình ảnh/PDF. Mỗi việc trích xuất sẽ nằm trong /account/?tab=history. Để bảo tồn cây thư mục, dùng API.
Có — POST file của bạn đến /v1/ocr/ với model="GOT-OCR v2". Returns JSON with text + (when supported) layout + word-level bounding boxes. /api/ có tham chiếu đầy đủ.
Các mô hình tự chủ giữ tập tin của bạn trên GPU của chúng tôi; premium đi qua với DPA. Tài liệu được xóa sau cửa sổ chia sẻ. Chúng tôi không huấn luyện vào đầu vào của bạn.
Có — Free.ai cho phép sử dụng thương mại văn bản đã trích xuất. Bạn cần quyền truy cập tài liệu nguồn.
Thông thường 1–5 giây mỗi trang. Các động cơ nhận biết bố cục (bảng, toán học) mất lâu hơn. PDF nhiều trang được quy đổi theo đường thẳng.