PDF erauzlea PDF-tik testura Paper akademikoen erauzketa Ikerketa-artikulua testura arXiv PDF erauzlea Gehiago →

PDF-tik Markdown-era

Erabilera komertziala Ados 380+ modelo Ur- markarik ez Ez da izen-ematerik behar

PDF bat jaregitea — AIk GitHub-en zaporedun Markdown garbi bihurtzen du, izenburuak, paragrafoak, zerrendak, taulak eta kode-blokeak denak gordeta. IBM Granite-Docling-258M (Apache 2.0) motorrarekin. Testu arrunta erauzteko baino azkarragoa eta azkarragoa.

Bihurtu edozein PDF GitHub-en gustuko Markdown garbira, goiburuak, taulak, zerrendak eta kode-blokeak gordeta. IBM Granite-Docling-ek garatua. Doakoa, mugagabea, harpidetzarik gabe.

Nola erabili PDF-tik Markdown-era

Sartu zure sarrera

Idatzi testua, igo fitxategi bat edo deskribatu nahi duzuna. Ez da konturik behar.

Egin klik sortzean

Gure AI-ak zure eskaera segundotan prozesatzen du, kode irekiko eredurik onenak erabiliz.

Deskargatu eta partekatu

Deskargatu, kopiatu edo partekatu zure emaitza. Dohainik erabilpen pertsonal eta komertzialerako.

Erabili tresna hau API bidez

Automatizatu tresna hau zure kodetik. OpenAI-rekin bateragarria den REST amaiera-puntua, eramantzailearen tokenaren autentifikazioa, ez da SDK gehigarririk behar. Tokenen kostuak web-interfazearekin bat datoz.

API dokumentazioa Eskuratu API gakoa

curl -X POST https://api.free.ai/v1/chat/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen7b", "messages": [{"role": "user", "content": "Use the PDF-tik Markdown-era tool on: ..."}]}'

Erlazionatutako AI tresna libreak

PDF erauzlea

PDF-tik testura

Paper akademikoen erauzketa

Ikerketa-artikulua testura

arXiv PDF erauzlea

PDF-tik Markdown-era — FAQ

Jarri edozein PDF eta AI-k Markdown garbia bihurtuko du GitHub-en zaporearekin —izenburuak izenburu izaten jarraitzen du, taulak taulak izaten jarraitzen du, zerrendak zerrenda izaten jarraitzen du, kode-blokeak kode-bloke izaten jarraitzen du. Testu arrunta erauzteko baino askoz gehiago da; dokumentuaren egitura hierarkia mantentzen da irteera zuzenean docs gune batean, LLM RAG hodi batean edo bilaketa-indize batean jartzeko.

IBM Granite-Docling-258M (Apache 2.0). Ikusmenetik sekuentziara eredu txikia, diseinua kontuan hartzen duen dokumentu bihurketarako doitua - pdftotext baino azkarragoa + orri bakoitzean ikusmen-hizkuntza eredu generiko bat exekutatzea baino azkarragoa + azkarragoa.

pdftotext hondamendi laua da — paragrafoak eta taulak hitz-horma batean kolapsatu egiten dira. Adobe Export to Word-ek diseinua mantentzen du, baina.docx sortzen du + hilean ~$15 kostatzen da. Docling-ek egitura SEMANTIKOA mantentzen du (goiburu-mailak, zerrendak zerrenda gisa, taulak Markdown taula gisa) eta LLMek eta garapen-tresnek natiboki kontsumitu dezaketen formatu bat ateratzen du.

LlamaParse eta egituragabeak maila libreak dituzte, baina orrialdeak hilean mugatuta daude eta API gakoa behar dute. Docling-258M lokalki gure GPUan exekutatzen da + Apache 2.0 guztiz auto-ostatua da, orrialde bakoitzeko neurketarik ez, gakoen erregistrorik ez. Kalitatea LlamaParse-rekin lehiakorra da dokumentu estandarretan.

Bai — taulak Markdown-eko pipe-taula egoki gisa itzultzen dira. Zutabe anitzeko / habiatutako taulak are gehiago lautzen dira (Markdown-en oinarrizko muga bat, ez ereduaren errua). Taulen fideltasun perfektua lortzeko, `format=html` ere onartzen dugu, errenkada-eskala/kolore-eskala mantentzen duen APIaren bidez.

Granite-Docling-ek berak egiten du OCR urrats hori — digitalki sortutako eta eskaneatutako PDFetan berdin funtzionatzen du. DPI txikiagoan eskaneatzean (150 DPI baino gutxiago) testuaren zehaztasuna galdu egiten da; berreskaneatu 200 DPI+rekin emaitza onenak lortzeko.

LaTeX-ek errendatutako ekuazio gehienak lerro barruko '$...$' Markdown matematika gisa agertzen dira. Matematika astunak dituzten ikerketa-artikuluetarako, ekuazio eta aipuetarako bereziki egokitutako academic-paper-extract tresna (Nougat) ere eskaintzen dugu.

5-10 segundo inguru orri bakoitzeko gure H200-n. 30 orrialdeko txosten batek ~3-5 minutu irauten ditu. Modelo txikiak PDF txikien loteak eguneroko biltegian doan daudela esan nahi du.

200 token orri bakoitzeko, 500 token-eko beheko mugarekin. 5 orrialdeko kontratu bat = 1.000 token. 30 orrialdeko txosten bat = 6.000 token. Egunero 5K doako biltegiak erabilera ohikoenak estaltzen ditu.

PDF — digitalki sortutakoa + eskaneatua, biak onartzen dira. Gehienezko karga 50 MB. Beste dokumentu-formatu batzuk (DOCX, EPUB, HTML, etab.) bide-orrian daude; orain, kargatu eta bihurtu pdf-konbertsio-tresnarekin lehenik.

Berehala prozesatuta, Markdown irteera gordetzen da (24 ordu anonimoa / 7 egun ordaindutako partekatze-estekaren iraungipena), iturburuko PDFa erauzi ondoren ezabatzen da. Inoiz ez da entrenamendurako erabiltzen. /privacy/ politika osoa ikusteko.

Bai — POST zati anitzeko `fitxategi bat` /v1/document/pdf-to-markdown/-ra. {markdown_url, pages, preview, tokens, share_url} itzultzen du. Bearer autentifikazioa (sk-free-…) 10K token doakoak ematen ditu hilean. /api/-k curl adibidea du.

Izena eman doan 30.000 token-en truke

Sortu kontu librea

Ez da kreditu-txartelik behar

Nola baloratuko zenuke tresna hau?

PDF-tik Markdown-era

Emaitza

Nola erabili PDF-tik Markdown-era

Sartu zure sarrera

Egin klik sortzean

Deskargatu eta partekatu

Erabili tresna hau API bidez

Erlazionatutako AI tresna libreak

PDF-tik Markdown-era — FAQ

Zer da AI PDF Markdown-era?

Zein modelok funtzionatzen du?

Zer desberdintasun dago pdftotext / Adobe esportazioarekin?

Nola konparatu LlamaParse / unstructured.io?

Mahaiak kudeatzen ditu?

Zer gertatzen da eskaneatutako (irudi) PDFekin?

Nola kudeatzen ditu matematikak/ekuazioak?

Zenbat da azkarra?

Zenbat balio du?

Zein sarrerako formatu?

Igotako PDFak gordetzen dira?

Ba al dago API bat?

Lortu 10.000 doako token

Itxaron — 10.000 doako token eskuratu!

Gehiago nahi duzu?