PDF do markdown Ekstraktor PDF PDF do tekstu Dokument badawczy do tekstu ArXiv ekstraktor PDF Więcej →

Ekstraktor papieru akademickiego

Wykorzystanie handlowe OK Modele 380+ Brak znaku wodnego Nie ma potrzeby rejestracji

Wyrzuć arXiv preprint, dziennik papieru, lub rozdział tezy – SI konwertuje go na czysty tekst z LaTeX zapamiętany. Matematyczne równania pozostają jako równania, wielokolumnowe układy są niezranione, cytaty zachowane. Powered by Meta Nougat-base.

Wyciągnij tekst + równania z arXiv papierów, czasopism, i tych. Matematyczne równania są konwertowane do LaTeX, wielokolumnowe układy są niezranione, cytaty są zachowane. Zachowywane przez Meta Nougat. Za darmo, bez rejestracji.

Jak stosować lek Ekstraktor papieru akademickiego

Wprowadź swoje wpisy

Wpisz tekst, wyślij plik lub opisz, czego chcesz. Nie jest potrzebne konto.

Kliknij wygenerować

Nasz SI przetwarza Twoją prośbę w sekundach przy użyciu najlepszych modeli open-source.

Pobierz & dzielenie

Pobierz, kopiuj lub podziel się swoim wynikiem. Darmowe do użytku osobistego i komercyjnego.

Użyj tego narzędzia przez API

Automatyzuj to narzędzie z własnego kodu. Kompatybilny z OpenAI REST punkt końcowy, Authentic-Bearer-token, nie jest wymagany dodatkowy SDK. Koszty token pasują do interfejsu internetowego.

Dokumentacja API Pobierz klucz API

curl -X POST https://api.free.ai/v1/chat/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen7b", "messages": [{"role": "user", "content": "Use the Ekstraktor papieru akademickiego tool on: ..."}]}'

Powiązane narzędzia bezpłatnego SI

PDF do markdown

Ekstraktor PDF

PDF do tekstu

Dokument badawczy do tekstu

ArXiv ekstraktor PDF

Ekstraktor papieru akademickiego — FAQ

Opuść w dowolnym akademickim/badawczym dokumencie PDF — arXiv preprint, dokument konferencyjny, artykuł dziennikowy, rozdział dyplomowy — i SI przekształca go w czysty tekst sformułowany przez LaTeX. Wyrównania matematyczne przechodzą jako odpowiednie LaTeX, układy wielokolumnowe są rozbite w kolejność czytania, a cytaty + listy referencyjne są zachowane. Zbudowane specjalnie dla rodzaju gęstych dokumentów naukowych pdftotext mangles.

Meta's Nougat-base — model dekoder wizji-encoder-dekoder przeszkolony na milionach stron arXiv. Traktuje każdą PDF stronę jako obraz i wyjścia ustrukturyzowane markdown + LaTeX, dlatego równania przechodzą przez poprawnie, nawet gdy są wyświetlane jako rastrowi glify w źródłu PDF.

Narzędzie Docling (PDF do Markdown) wykorzystuje IBM Granite-Docling — szybkie, świadome układów, optymalizowane dla ogólnych dokumentów biznesowych, takich jak kontrakty, raporty, instrukcje. Nougat jest wolniej, ale FAR lepiej na akademickie papiery, ponieważ był specjalnie wyszkolony na matematyce + wielokolumnowe naukowe układy. Użyj Docling dla dowodów biznesowych, Nougat do badań naukowych.

Tak — to jest funkcja morderstwa. Inline matematyka wraca jako `$...$', wyświetlone równania jako `$...$'. To może odczytać obie równania z arXiv przedstawień i równań rasterowych skanowanych z starszych papierów. Jakość jest wydawnictwem dla dużej większości papierów.

Tak — Nougat odwija ustawienia dwukolumnowe / trzykolumnowe w prawidłowe porządek odczytu automatycznie. Żadnych tekstów skaczących między kolumnami. Przypisy są ekstrahowane na bloki przypisów na końcu każdej sekcji.

Znaczniki cytacji `[12]` / `(Smith 2020)` pozostać w kolejności. Listy referencyjne na końcu są zachowane z nietkniętym formatowaniem, dzięki czemu można przerzucić wyjście do Zotero / Mendely / Custom citation parser.

Około 8-15 sekund na stronę na naszej stronie H200. Typowy 10-stroniowy dokument konferencyjny rozpoczyna się w ~2 minuty. Długie papiery ankietowe (50+ strony) zajmują 8-12 minut — przedkładają i odchodzą.

300 tokenów na stronę (floor 600). 10-stroniowy dokument konferencyjny = 3000 tokenów. 30-stroniowy rozdział dyplomowy = 9000 tokenów. Codzienny bezpłatny basen obejmuje najbardziej nieformalne czytanie badań.

Przesuń go do ChatGPT/Claude dla summaryzacji papieru, zbudowaj osobisty RAG nad korpusem papierów, semantycznie-poszukiwaj własną bibliotekę, kopiuj równania bezpośrednio do projektów LaTeX lub po prostu czytaj gazetę jako zwykły tekst na telefonie.

Tak — Nougat robi swój własny krok OCR. Urodzone-cyfrowe arXiv przedstawienia są najlepsze (czyste równania obrazowania); skanowane starsze papiery pracują również, ale wierność matematyczna spadnie trochę. Dla najlepszych wyników matematyki na skanach, reskanować w 300+ DPI przed wysłaniem.

Niezwłocznie przetwarzane jest wyjście tekstu LaTeX (24h anonimowe / 7d zapłacone wygaśnięcie akcjonariusza), źródło PDF jest usuwane bezpośrednio po ekstrakcji. Nigdy nie używane do treningu. /privacy / dla pełnej polityki.

Tak — POST multipart `file` to /v1/document/academic-pdf /. Zwraca {text_url, strony, podgląd, tokeny, share_url}. Bearer auth (sk-free-...) daje 10K darmowe tokeny/miesiąc. /api / ma przykład kwiglowania.

Zarejestruj się bezpłatnie na 30 000 żetonów

Utwórz bezpłatne konto

Karta kredytowa nie jest wymagana

Jak mógłbyś ocenić to narzędzie?

Ekstraktor papieru akademickiego

Wynik

Jak stosować lek Ekstraktor papieru akademickiego

Wprowadź swoje wpisy

Kliknij wygenerować

Pobierz & dzielenie

Użyj tego narzędzia przez API

Powiązane narzędzia bezpłatnego SI

Ekstraktor papieru akademickiego — FAQ

Co to za narzędzie?

Który model go napędza?

Czy to różni się od zwykłego narzędzia PDF do narzędzia Markdown?

Zajmuje się równaniami matematycznymi?

Układy wielokolumnowe?

A cytaty i referencje?

Jak szybko jest?

Ile to kosztuje?

Co mogę zrobić z wyjściem?

Czy skanowane papiery są obsługiwane?

Czy przesłane PDF są przechowywane?

Jest jakiś API?

Zdobądź 10 tysięcy darmowych tokenów

Poczekaj, zdobądź 10 tysięcy darmowych toków!

Chcesz więcej?