Ekstraktor papieru akademickiego

Wykorzystanie handlowe OK Modele 380+ Brak znaku wodnego Nie ma potrzeby rejestracji
Wzór:
+ GPT-5, Claude, Gemini
Wyrzuć arXiv preprint, dziennik papieru, lub rozdział tezy – SI konwertuje go na czysty tekst z LaTeX zapamiętany. Matematyczne równania pozostają jako równania, wielokolumnowe układy są niezranione, cytaty zachowane. Powered by Meta Nougat-base.

Przesuń tutaj papier badawczy PDF lub kliknij, aby wysłać

PDF do 50 MB. ~300 żetonów na stronę (matematyka).

Czytanie równań + rozwijanie kolumn... ~10 sec/page
Zaawansowane opcje
Wynik
Tokiny się skończyły. Zdobądź więcej tokenów
Chcesz lepsze wyniki? Modele premium (GPT-5, Claude, Gemini) dostarcza wyższej jakości. Widok planów

❤️ Love this tool? Share it!

Zaloguj się aby uzyskać link referencyjny i zarobić 25 000 żetonów na przyjaciela.

Chcesz więcej? Zarejestruj się za darmo za 30K tokeny/dzień + 10K bonus
Zarejestruj się za darmo

Przetwarzam twoją prośbę...

Wyciągnij tekst + równania z arXiv papierów, czasopism, i tych. Matematyczne równania są konwertowane do LaTeX, wielokolumnowe układy są niezranione, cytaty są zachowane. Zachowywane przez Meta Nougat. Za darmo, bez rejestracji.

Jak stosować lek Ekstraktor papieru akademickiego

1
Wprowadź swoje wpisy

Wpisz tekst, wyślij plik lub opisz, czego chcesz. Nie jest potrzebne konto.

2
Kliknij wygenerować

Nasz SI przetwarza Twoją prośbę w sekundach przy użyciu najlepszych modeli open-source.

3
Pobierz & dzielenie

Pobierz, kopiuj lub podziel się swoim wynikiem. Darmowe do użytku osobistego i komercyjnego.

Użyj tego narzędzia przez API

Automatyzuj to narzędzie z własnego kodu. Kompatybilny z OpenAI REST punkt końcowy, Authentic-Bearer-token, nie jest wymagany dodatkowy SDK. Koszty token pasują do interfejsu internetowego.

curl -X POST https://api.free.ai/v1/chat/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen7b", "messages": [{"role": "user", "content": "Use the Ekstraktor papieru akademickiego tool on: ..."}]}'

Ekstraktor papieru akademickiego — FAQ

Opuść w dowolnym akademickim/badawczym dokumencie PDF — arXiv preprint, dokument konferencyjny, artykuł dziennikowy, rozdział dyplomowy — i SI przekształca go w czysty tekst sformułowany przez LaTeX. Wyrównania matematyczne przechodzą jako odpowiednie LaTeX, układy wielokolumnowe są rozbite w kolejność czytania, a cytaty + listy referencyjne są zachowane. Zbudowane specjalnie dla rodzaju gęstych dokumentów naukowych pdftotext mangles.

Meta's Nougat-base — model dekoder wizji-encoder-dekoder przeszkolony na milionach stron arXiv. Traktuje każdą PDF stronę jako obraz i wyjścia ustrukturyzowane markdown + LaTeX, dlatego równania przechodzą przez poprawnie, nawet gdy są wyświetlane jako rastrowi glify w źródłu PDF.

Narzędzie Docling (PDF do Markdown) wykorzystuje IBM Granite-Docling — szybkie, świadome układów, optymalizowane dla ogólnych dokumentów biznesowych, takich jak kontrakty, raporty, instrukcje. Nougat jest wolniej, ale FAR lepiej na akademickie papiery, ponieważ był specjalnie wyszkolony na matematyce + wielokolumnowe naukowe układy. Użyj Docling dla dowodów biznesowych, Nougat do badań naukowych.

Tak — to jest funkcja morderstwa. Inline matematyka wraca jako `$...$', wyświetlone równania jako `$...$'. To może odczytać obie równania z arXiv przedstawień i równań rasterowych skanowanych z starszych papierów. Jakość jest wydawnictwem dla dużej większości papierów.

Tak — Nougat odwija ustawienia dwukolumnowe / trzykolumnowe w prawidłowe porządek odczytu automatycznie. Żadnych tekstów skaczących między kolumnami. Przypisy są ekstrahowane na bloki przypisów na końcu każdej sekcji.

Znaczniki cytacji `[12]` / `(Smith 2020)` pozostać w kolejności. Listy referencyjne na końcu są zachowane z nietkniętym formatowaniem, dzięki czemu można przerzucić wyjście do Zotero / Mendely / Custom citation parser.

Około 8-15 sekund na stronę na naszej stronie H200. Typowy 10-stroniowy dokument konferencyjny rozpoczyna się w ~2 minuty. Długie papiery ankietowe (50+ strony) zajmują 8-12 minut — przedkładają i odchodzą.

300 tokenów na stronę (floor 600). 10-stroniowy dokument konferencyjny = 3000 tokenów. 30-stroniowy rozdział dyplomowy = 9000 tokenów. Codzienny bezpłatny basen obejmuje najbardziej nieformalne czytanie badań.

Przesuń go do ChatGPT/Claude dla summaryzacji papieru, zbudowaj osobisty RAG nad korpusem papierów, semantycznie-poszukiwaj własną bibliotekę, kopiuj równania bezpośrednio do projektów LaTeX lub po prostu czytaj gazetę jako zwykły tekst na telefonie.

Tak — Nougat robi swój własny krok OCR. Urodzone-cyfrowe arXiv przedstawienia są najlepsze (czyste równania obrazowania); skanowane starsze papiery pracują również, ale wierność matematyczna spadnie trochę. Dla najlepszych wyników matematyki na skanach, reskanować w 300+ DPI przed wysłaniem.

Niezwłocznie przetwarzane jest wyjście tekstu LaTeX (24h anonimowe / 7d zapłacone wygaśnięcie akcjonariusza), źródło PDF jest usuwane bezpośrednio po ekstrakcji. Nigdy nie używane do treningu. /privacy / dla pełnej polityki.

Tak — POST multipart `file` to /v1/document/academic-pdf /. Zwraca {text_url, strony, podgląd, tokeny, share_url}. Bearer auth (sk-free-...) daje 10K darmowe tokeny/miesiąc. /api / ma przykład kwiglowania.

Zarejestruj się bezpłatnie na 30 000 żetonów

Utwórz bezpłatne konto

Karta kredytowa nie jest wymagana

Jak mógłbyś ocenić to narzędzie?

Love this tool? Share it!