PDF sang Markdown Bộ trích xuất PDF PDF sang văn bản Giấy nghiên cứu sang văn bản Trình trích xuất PDF arXiv Nhiều hơn →

Trình trích xuất tài liệu học thuật

Dùng thương mại được. 380+ mẫu Không dấu nước Không cần đăng ký

Đổi một bài báo, tạp chí, hoặc chương luận án arXiv — AI chuyển đổi nó thành văn bản LaTeX sạch. Phương trình toán học vẫn là phương trình, bố cục nhiều cột được mở ra, trích dẫn được bảo tồn. Được chạy bởi Meta Nougat- base. Name

Kéo văn bản + phương trình ra khỏi các bài báo, tạp chí và luận án arXiv. Các phương trình toán học được chuyển đổi thành LaTeX, bố cục nhiều cột được mở rộng, các trích dẫn được bảo tồn. Được chạy bởi Meta Nougat. Miễn phí, không cần đăng ký. Name

Cách sử dụng Trình trích xuất tài liệu học thuật

Nhập thông tin

Nhập văn bản, tải lên tập tin, hoặc mô tả điều bạn muốn. Không cần tài khoản.

Nhấn để tạo

AI của chúng tôi xử lý yêu cầu của bạn trong vài giây sử dụng các mô hình nguồn mở tốt nhất.

Tải về và chia sẻ

Tải xuống, sao chép, hoặc chia sẻ kết quả của bạn. Miễn phí cho sử dụng cá nhân và thương mại.

Dùng công cụ này qua API

Tự động hóa công cụ này từ mã của bạn. Điểm kết thúc REST tương thích với OpenAI, xác thực bằng token của người mang, không cần SDK bổ sung. Chi phí token tương ứng với giao diện web.

Tài liệu API Lấy khóa API

curl -X POST https://api.free.ai/v1/chat/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen7b", "messages": [{"role": "user", "content": "Use the Trình trích xuất tài liệu học thuật tool on: ..."}]}'

Công cụ AI miễn phí liên quanName

PDF sang Markdown

Bộ trích xuất PDF

PDF sang văn bản

Giấy nghiên cứu sang văn bản

Trình trích xuất PDF arXiv

Trình trích xuất tài liệu học thuật — FAQ

Cho vào bất kỳ tài liệu học thuật/ nghiên cứu PDF nào — arXiv preprint, hội nghị, bài báo tạp chí, chương luận án — và AI sẽ chuyển đổi nó thành văn bản định dạng LaTeX sạch. Phương trình toán học sẽ xuất hiện như LaTeX đúng, bố cục nhiều cột sẽ được mở ra theo thứ tự đọc, và danh sách trích dẫn + tham khảo sẽ được bảo tồn. Được xây dựng đặc biệt cho loại tài liệu khoa học dày đặc pdftotext mangles.

Nougat-base của Meta — một mô hình mã hóa-định dạng-định dạng được huấn luyện trên hàng triệu trang arXiv. Nó coi mỗi trang PDF như một hình ảnh và xuất ra Markdown + LaTeX cấu trúc, đó là lý do tại sao các phương trình xuất hiện chính xác ngay cả khi chúng được hiển thị như các ký tự raster trong nguồn PDF.

Công cụ Docling (PDF sang Markdown) dùng IBM Granite- Docling — nhanh, biết bố cục, tối ưu cho tài liệu kinh doanh chung như hợp đồng, báo cáo, sổ tay. Nougat chậm hơn nhưng tốt hơn nhiều cho các bài báo học thuật vì nó được đào tạo đặc biệt cho toán học + bố cục khoa học nhiều cột. Dùng Docling cho tài liệu kinh doanh, Nougat cho nghiên cứu.

Có — đó là tính năng tuyệt vời. Toán học trong dòng được hiển thị như là `$... $`, phương trình hiển thị như là `$$... $$`. Nó có thể đọc cả phương trình LaTeX từ các bài gửi arXiv và phương trình raster được quét từ các bài viết cũ. Chất lượng là cấp độ xuất bản cho phần lớn các bài viết.

Có — Nougat tự động mở bố cục hai cột/ ba cột theo thứ tự đọc đúng. Không còn văn bản nhảy giữa câu giữa các cột nữa. Ghi chú được trích ra vào khối ghi chú ở cuối mỗi phần.

Các dấu ghi trích dẫn `[12]` / `(Smith 2020)` vẫn ở trong dòng. Danh sách tham chiếu ở cuối được giữ nguyên với định dạng nguyên vẹn, vì vậy bạn có thể đưa kết quả vào Zotero / Mendeley / một trình phân tích trích dẫn tùy chỉnh.

Khoảng 8-15 giây mỗi trang trên H200 của chúng tôi. Một bài báo hội nghị 10 trang điển hình chạy trong ~2 phút. Các bài báo khảo sát dài (50+ trang) mất 8-12 phút — gửi và đi.

300 token mỗi trang (tầng 600). Một bài báo hội nghị 10 trang = 3000 token. Một chương luận án 30 trang = 9000 token.

Đưa nó vào ChatGPT/Claude để tóm tắt bài báo, xây dựng một RAG cá nhân trên một bộ tài liệu, tìm kiếm từ vựng trong thư viện của bạn, sao chép phương trình trực tiếp vào các dự án LaTeX, hoặc chỉ đọc bài báo như văn bản đơn giản trên điện thoại của bạn.

Có — Nougat tự làm bước OCR của nó. Những bài đăng arXiv kỹ thuật số là tốt nhất (hình ảnh hóa phương trình sạch); các bài báo cũ đã quét cũng hoạt động nhưng độ chính xác toán học giảm một chút. Để có kết quả toán học tốt nhất trên các bản quét, quét lại ở 300+ DPI trước khi tải lên.

Xử lý ngay lập tức, kết quả văn bản LaTeX được giữ lại (24h ẩn danh / 7d có giá trị chia sẻ), PDF nguồn được xóa ngay sau khi trích xuất. Không bao giờ dùng cho huấn luyện. / privacy / cho chính sách đầy đủ.

Có — POST một `file` đa phần đến /v1/document/academic-pdf/. Trả lại {text_url, pages, preview, tokens, share_url}. Bearer auth (sk-free-…) cho 10K tokens miễn phí/tháng. /api/ có ví dụ curl.

Đăng ký miễn phí 30,000 token

Tạo tài khoản miễn phí

Không cần thẻ tín dụng

Anh đánh giá công cụ này thế nào?

Trình trích xuất tài liệu học thuật

Kết quả

Cách sử dụng Trình trích xuất tài liệu học thuật

Nhập thông tin

Nhấn để tạo

Tải về và chia sẻ

Dùng công cụ này qua API

Công cụ AI miễn phí liên quanName

Trình trích xuất tài liệu học thuật — FAQ

Trình trích xuất tài liệu học thuật là gì?

Kiểu nào dùng?

Điều này khác gì với công cụ PDF sang Markdown thông thường?

Nó có xử lý được phương trình toán học không?

Bảng bố trí nhiều cột?

Còn về trích dẫn và tham khảo?

Nó chạy nhanh thế nào?

Nó có giá bao nhiêu?

Tôi có thể làm gì với kết quả?

Có hỗ trợ giấy quét không?

Có lưu các PDF tải lên không?

Có API không?

Lấy 10.000 token miễn phí

Chờ đã — Cầm 10K token miễn phí!

Muốn thêm nữa không?