PDF ажратгич Матнга PDF Академик ҳужжатларни ажратиш Тадқиқот ҳужжатларини матнга arXiv PDF ажратгичи Кўпроқ →

PDF'дан Markdown'га

Q: У математика / тенгламаларни қандай ишлайди?

LaTeX-да кўрсатилган тенгламаларнинг кўпчилиги сатр ичида `$...$` Markdown math кўринишида келади. Математикага бой илмий мақолалар учун биз тенгламалар ва иқтибослар учун махсус созланган academic-paper-extract tool (Nougat) ни ҳам таклиф қиламиз.

Q: Қанча тез?

Бизнинг H200'да ҳар бир саҳифа учун 5-10 сония. 30 саҳифали ҳисобот ~3-5 дақиқани ташкил қилади. Тиниш модели кичик PDF файллар партиялари кундалик пулда бепул эканини англатади.

Q: Бу қанча туради?

Ҳар бир саҳифа учун 200 токен, 500 токенли устун билан. 5 саҳифали шартнома = 1000 токен. 30 саҳифали ҳисобот = 6000 токен. Кунига 5K бепул пул кўпроқ типик фойдаланишни қоплайди.

Q: Қайси киритиш форматлари?

PDF — born-digital + скан қилинган иккиси ҳам қўллаб-қувватланади. Максимум юклаш 50 MB. Бошқа ҳужжат форматлари (DOCX, EPUB, HTML, ва ҳоказо) йўл харитасида; ҳозирча аввал pdf-конвертлаш асбоби билан юклаб олиш ва конвертлаш.

Тижорат мақсадларида фойдаланиш мумкин 380+ моделлар Сув белгиси йўқ Қўшилиш талаб этилмайди

PDF'ни ташлаш — AI уни бошлиқлар, абзацлар, рўйхатлар, жадваллар ва код блоклари сақланган ҳолда GitHub-га ўхшаш Markdown'га айлантиради. IBM Granite-Docling-258M (Apache 2.0) билан ишлайди. Оддий матн ажратишдан тезроқ + ақллироқ.

Ҳар қандай PDF файлини бошлиқлар, жадваллар, рўйхатлар ва код блоклари сақланган ҳолда GitHub-га ўхшаш Markdown'га айлантиринг. IBM Granite-Docling томонидан қўлланилади. Бепул, чекланмаган, рўйхатдан ўтиш талаб этилмайди.

Қўллаш усули PDF'дан Markdown'га

Ўзингизнинг киритмани киритинг

Матн ёзинг, файл юкланг ёки нимани хоҳлаётганингизни айтинг. Ҳисоб керак эмас.

Юклаб олишни босинг

Бизнинг ИИ сизнинг талабингизни энг яхши очиқ манбали моделларни қўллаган ҳолда сониялар ичида ишлайди.

Юклаб олиш ва улаш

Натижаларни юклаб олиш, нусха кўчириш ёки ўртоқлашиш. Шахсий ва бизнес мақсадлар учун бепул.

Бу асбобни API орқали ишлатиш

Бу асбобни ўз кодингиздан автоматлаштиринг. OpenAI-га мос келувчи REST охирги нуқтаси, Bearer-token аутентификацияси, қўшимча SDK талаб этилмайди. Токен қиймати веб интерфейсига мос келади.

Ҳужжатлаштириш API калитини олиш

curl -X POST https://api.free.ai/v1/chat/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen7b", "messages": [{"role": "user", "content": "Use the PDF'дан Markdown'га tool on: ..."}]}'

Бунга ўхшаш эркин AI асбоблари

PDF ажратгич

Матнга PDF

Академик ҳужжатларни ажратиш

Тадқиқот ҳужжатларини матнга

arXiv PDF ажратгичи

PDF'дан Markdown'га — FAQ

Ҳар қандай PDF файлини ташланг ва AI уни GitHub-га ўхшаш Markdown'га айлантиради — сарлавҳалар сарлавҳалар бўлиб қолади, жадваллар жадваллар бўлиб қолади, рўйхатлар рўйхатлар бўлиб қолади, код блоклари код блоклари бўлиб қолади. Бу оддий матн ажратишдан анча олдинга ўтади; ҳужжатнинг тузилмавий иерархияси сақланиб қолади, шунинг учун сиз чиқиндини тўғридан-тўғри docs сайтига, LLM RAG қувурига ёки қидирув индексига ташлайсиз.

IBM Granite-Docling-258M (Apache 2.0). Тиниш кўриш-кейинлик модели кўриниш-эҳтиёткор ҳужжатга айланиш учун яхшилаб созланган - pdftotextни енгади + ҳар бир саҳифада умумий кўриш-тил моделини ишга туширишдан кўра тезроқ + ақллироқ.

pdftotext — бу текис даф — абзацлар ва жадваллар сўзлар деворига тушади. Adobe Export to Word кўринишни сақлайди, аммо.docx файлини яратади + ~$15/mo қийматида. Docling SEMANTIC структурасини сақлайди (бошлов даражалари, рўйхатлар рўйхатлар, жадваллар Markdown жадваллари) ва LLM ва dev воситалари ҳам ўз-ўзидан истеъмол қила оладиган форматда чиқиндиларни чиқаради.

LlamaParse ва unstructured иккаласи ҳам бепул даражаларга эга, аммо ойига саҳифалар сони чекланган ва API калитини талаб қилади. Docling-258M локал равишда GPU + дан ишлайди, Apache 2.0 тўлиқ ўз-ўзини хост қилади, саҳифага ҳисоблаш йўқ, қулфни қайд этиш йўқ. Стандарт ҳужжатларда сифат LlamaParse билан рақобатлашади.

Ҳа — жадваллар тўғри Markdown pipe-жадвали сифатида қайтарилади. Муҳим кўп-стуллар/ўринланган жадваллар кўпроқ ёпиштирилади (Markdownнинг асосий чеклови, моделнинг хатоси эмас). Мукаммал жадвал ишончлилиги учун, биз rowspan/colspanни сақлайдиган API орқали `format=html` ни ҳам қўллаймиз.

Granite-Docling OCR қадамини ўзи бажаради — бу рақамли ва скан қилинган PDF файллар учун ҳам ишлайди. Қимматроқ DPI (<150) даги сканлаш матн аниқлигини йўқотади; энг яхши натижа учун 200+ DPI даги қайта сканлаш.

LaTeX-да кўрсатилган тенгламаларнинг кўпчилиги сатр ичида `$...$` Markdown math кўринишида келади. Математикага бой илмий мақолалар учун биз тенгламалар ва иқтибослар учун махсус созланган academic-paper-extract tool (Nougat) ни ҳам таклиф қиламиз.

Бизнинг H200'да ҳар бир саҳифа учун 5-10 сония. 30 саҳифали ҳисобот ~3-5 дақиқани ташкил қилади. Тиниш модели кичик PDF файллар партиялари кундалик пулда бепул эканини англатади.

Ҳар бир саҳифа учун 200 токен, 500 токенли устун билан. 5 саҳифали шартнома = 1000 токен. 30 саҳифали ҳисобот = 6000 токен. Кунига 5K бепул пул кўпроқ типик фойдаланишни қоплайди.

PDF — born-digital + скан қилинган иккиси ҳам қўллаб-қувватланади. Максимум юклаш 50 MB. Бошқа ҳужжат форматлари (DOCX, EPUB, HTML, ва ҳоказо) йўл харитасида; ҳозирча аввал pdf-конвертлаш асбоби билан юклаб олиш ва конвертлаш.

Дарҳол ишланади, Markdown чиқими сақланади (24 соат аноним / 7 кун тўловли ўртоқлашиш-пайванд муддати тугайди), манба PDF ажратиб олингандан кейин дарҳол ўчирилади. Ҳеч қачон ўқитиш учун ишлатилмайди. /privacy/ тўлиқ сиёсат учун.

Ҳа — кўп қисмли `файл`ни /v1/document/pdf-to-markdown/га POST қилади. {markdown_url, саҳифалар, кўриниш, токенлар, share_url} қайтаради. Беорр аутентификация (sk-free-…) ойига 10K бепул токенларни беради. /api/ curl мисолига эга.

10,000 та тош учун бепул рўйхатдан ўтинг

Бепул ҳисоб яратиш

Кредит картаси талаб этилмайди

Бу асбобни қандай баҳолайсиз?

PDF'дан Markdown'га

Натижа

Қўллаш усули PDF'дан Markdown'га

Ўзингизнинг киритмани киритинг

Юклаб олишни босинг

Юклаб олиш ва улаш

Бу асбобни API орқали ишлатиш

Бунга ўхшаш эркин AI асбоблари

PDF'дан Markdown'га — FAQ

AI PDF to Markdown нима?

Қайси модел қувватлайди?

Бу pdftotext / Adobe экспортидан қандай фарқ қилади?

У LlamaParse / unstructured.io билан қандай таққослаши мумкин?

У жадвалларни бошқара оладими?

Скан қилинган (расм) PDF файллар нима бўлади?

У математика / тенгламаларни қандай ишлайди?

Қанча тез?

Бу қанча туради?

Қайси киритиш форматлари?

Юкланган PDFлар сақланмоқдами?

API борми?

10,000 та бепул жетонлар олинг

Қўй, 10K бепул токенлар ол!

Яна кўпроқ хоҳлайсанми?