GOT-OCR v2

Free.ai · ocr · ~500 token mỗi page

Tải lên tài liệu/ ảnh

Tháo tập tin xuống đây hoặc nhấn để duyệt

~500 token mỗi page

Chạy miễn phí trên GPU của chúng tôi. Cập nhật cho GOT-OCR v2 →

GOT-OCR v2 is a Mô hình OCR. Đường dẫn qua các mô hình bên ngoài — ~500 tokens mỗi trang (50% markup trên chi phí lên nguồn).

Dùng qua API

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/ocr/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/got-ocr/v2","prompt":"your prompt here"}'

Tài liệu API Lấy khóa API

Câu hỏi thường gặp

GOT-OCR v2 trích xuất văn bản từ hình ảnh và PDF. Tải lên một trang đã quét, một hình chụp màn hình, hoặc một bức ảnh của một tài liệu và GOT-OCR v2 trả lại văn bản — bảo tồn các đoạn kết và (trên các động cơ có khả năng) bảng, công thức, và cấu trúc.

GOT-OCR v2 xử lý hàng chục kiểu chữ — Latin, Cyrillic, CJK, Arabic, Devanagari, và nhiều hơn nữa. /ocr/ landing có danh sách đầy đủ các ngôn ngữ cho mỗi engine.

Có cho chữ viết tay kiểu in sạch; chữ nghiêng và chữ viết tắt khó hơn. TrOCR và các động cơ dựa trên biến đổi hiện đại là tốt hơn đáng kể so với Tesseract cũ về chữ viết tay.

Các động cơ nhận biết bố cục (GOT-OCR, Marker, Florence-2) trả về bảng Markdown/HTML và LaTeX cho các công thức. Các động cơ văn bản đơn giản trả lại văn bản không có cấu trúc — kiểm tra chế độ xuất của mô hình này.

GOT-OCR v2 là một công cụ OCR cao cấp. Khoảng ~500–1,500 token mỗi trang. $1 = 750,000 token.

PNG, JPG, WebP, HEIC, BMP, cộng với PDF một trang và nhiều trang lên đến 50 MB. Các trang bị lệch hoặc xoay sẽ được tự động sửa trước khi trích xuất.

Độ chính xác của các ký tự thường là >98% trên các trang in sạch, rơi trên ảnh độ phân giải thấp, scan nghiêm trọng, hoặc phông chữ bất thường. So sánh các động cơ trên /ocr/compare/ khi độ chính xác quan trọng.

Có — /batch/ chấp nhận một thư mục hình ảnh/PDF. Mỗi việc trích xuất sẽ nằm trong /account/?tab=history. Để bảo tồn cây thư mục, dùng API.

Có — POST file của bạn đến /v1/ocr/ với model="GOT-OCR v2". Returns JSON with text + (when supported) layout + word-level bounding boxes. /api/ có tham chiếu đầy đủ.

Các mô hình tự chủ giữ tập tin của bạn trên GPU của chúng tôi; premium đi qua với DPA. Tài liệu được xóa sau cửa sổ chia sẻ. Chúng tôi không huấn luyện vào đầu vào của bạn.

Có — Free.ai cho phép sử dụng thương mại văn bản đã trích xuất. Bạn cần quyền truy cập tài liệu nguồn.

Thông thường 1–5 giây mỗi trang. Các động cơ nhận biết bố cục (bảng, toán học) mất lâu hơn. PDF nhiều trang được quy đổi theo đường thẳng.

GOT-OCR v2

Dùng qua API

Câu hỏi thường gặp

GOT-OCR v2 làm gì?

GOT-OCR v2 hỗ trợ ngôn ngữ nào?

GOT-OCR v2 có thể đọc chữ viết tay không?

GOT-OCR v2 có giữ cấu trúc bảng hay công thức toán học không?

GOT-OCR v2 có giá bao nhiêu mỗi trang?

GOT-OCR v2 chấp nhận định dạng nhập liệu nào?

GOT-OCR v2 chính xác đến đâu?

Tôi có thể OCR hàng loạt với GOT-OCR v2 không?

Có một API cho GOT-OCR v2 không?

Còn về sự riêng tư khi tôi OCR tài liệu nhạy cảm với GOT-OCR v2?

Liệu kết quả GOT-OCR v2 có an toàn cho mục đích thương mại không?

GOT-OCR v2 mất bao lâu?

Lấy 10.000 token miễn phí

Chờ đã — Cầm 10K token miễn phí!

Muốn thêm nữa không?