PDF a Markdown Extractor de PDF PDF a texto Documento de investigación a texto Extractor de PDF de arXiv Máis →

Extractor de documentos académicos

Uso comercial aceptado Máis de 380 modelos Sen marca de auga Non é preciso rexistrarse

Deixe un preprint de arXiv, un artigo de revista ou un capítulo de tese — a IA convérteo en texto limpo con sabor a LaTeX. As ecuacións matemáticas permanecen como ecuacións, os deseños de varias columnas desenvólvense, e as citas presérvanse. Xestionado por Meta Nougat- base.

Extrae texto e ecuacións de artigos, revistas e teses de arXiv. As ecuacións matemáticas convértense en LaTeX, desenvólvense as disposicións de varias columnas e presérvanse as citas. Xestionado por Meta Nougat. Gratuito, sen necesidade de rexistrarse.

Como usar Extractor de documentos académicos

Introduza a súa entrada

Escriba texto, envíe un ficheiro ou describa o que queira. Non se precisa conta.

Prema para xerar

A nosa IA procesa a túa solicitude en segundos empregando os mellores modelos de código aberto.

Obter e compartir

Obteña, copie ou comparta o seu resultado. Gratuito para uso persoal e comercial.

Empregar esta ferramenta mediante API

Automatice esta ferramenta a partir do seu propio código. Punto final REST compatíbel con OpenAI, autenticación por token de portador, non se require SDK adicional. Os custos dos tokens son iguais aos da interface web.

Documentación da API Obter a chave da API

curl -X POST https://api.free.ai/v1/chat/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen7b", "messages": [{"role": "user", "content": "Use the Extractor de documentos académicos tool on: ..."}]}'

Ferramentas libres de IA relacionadas

PDF a Markdown

Extractor de PDF

PDF a texto

Documento de investigación a texto

Extractor de PDF de arXiv

Extractor de documentos académicos — FAQ

Solte calquera documento académico/ de investigación en PDF — preimpresión de arXiv, documento de conferencia, artigo de revista, capítulo de tese — e a IA convérteo en texto limpo con formato LaTeX. As ecuacións matemáticas aparecen como LaTeX, as disposicións de varias columnas desenvólvense na orde de lectura e presérvanse as citas e as listas de referencias. Desenvolvido especificamente para o tipo de documentos científicos densos que se converten de pdf a texto.

Nougat- base de Meta, un modelo de codificador- descodificador de visión adestrado en millóns de páxinas de arXiv. Trata cada páxina PDF como unha imaxe e produce Markdown + LaTeX estruturado, polo que as ecuacións saen correctamente mesmo cando se renderizan como glifos raster no PDF de orixe.

A ferramenta Docling (PDF a Markdown) emprega IBM Granite- Docling, rápido, consciente da disposición, optimizado para documentos de negocios xerais como contratos, informes, manuais. Nougat é máis lento pero MUITO mellor en documentos académicos porque foi adestrado especificamente en disposicións matemáticas + científicas de varias columnas. Use Docling para documentos de negocios, Nougat para investigación.

Si, esa é a característica máis importante. As matemáticas en liña devolven como « $... $ », as ecuacións mostradas como « $$... $$ ». Pode ler tanto ecuacións de LaTeX de envíos a arXiv COMO ecuacións rasterizadas escaneadas de artigos antigos. A calidade é de calidade de publicación para a maioría dos artigos.

Si, Nougat desenrola automaticamente as disposicións de dúas/ tres columnas na orde de lectura correcta. Non hai máis texto que salte entre columnas a medio da oración. As notas de rodapé extraéronse en bloques de notas de rodapé ao final de cada sección.

Os marcadores de citas « [12] » / « (Smith 2020) » permanecen en liña. As listas de referencias ao final son preservadas co formato intacto, polo que pode canalizar a saída a Zotero / Mendeley / un analizador de citas personalizado.

Cerca de 8- 15 segundos por páxina no noso H200. Un documento de conferencia típico de 10 páxinas levábase ~2 minutos. Os documentos de enquisa longos (máis de 50 páxinas) levaban 8- 12 minutos: enviábase e marchaba.

300 fichas por páxina (piso 600). Un artigo de conferencia de 10 páxinas = 3. 000 fichas. Un capítulo de tese de 30 páxinas = 9. 000 fichas. O fondo diario libre cobre a maioría das lecturas de investigación ocasionais.

Envíeo a ChatGPT/Claude para resumir o artigo, construír un RAG persoal sobre un corpus de artigos, buscar semánticamente na súa propia biblioteca, copiar ecuacións directamente en proxectos LaTeX ou simplemente ler o artigo como texto simple no seu teléfono.

Si, Nougat fai o seu propio paso de OCR. Os envíos a arXiv nados dixitais son os mellores (representación limpa das ecuacións); os artigos máis antigos escaneados tamén funcionan, pero a fidelidade matemática cae un pouco. Para obter os mellores resultados matemáticos nas escaneadas, escanee de novo a máis de 300 PPP antes de enviar.

Procesado inmediatamente, a saída de texto LaTeX consérvase (24h anónimo / 7d caducidade da ligazón compartida pagada), o PDF de orixe é borrado inmediatamente despois da extracción. Nunca se usa para adestramento. / privacy / para a política completa.

Si — POST un « ficheiro » de varias partes a / v1/ document/ academic- pdf /. Devolve {text_ url, pages, preview, tokens, share_ url}. A autenticación de portador (sk- free-…) dá 10K tokens libres/ mes. / api / ten o exemplo curl.

Inscríbete gratis para obter 30.000 tokens

Crear unha conta libre

Non se require tarxeta de crédito

Como valora esta ferramenta?

Extractor de documentos académicos

Resultado

Como usar Extractor de documentos académicos

Introduza a súa entrada

Prema para xerar

Obter e compartir

Empregar esta ferramenta mediante API

Ferramentas libres de IA relacionadas

Extractor de documentos académicos — FAQ

Que é Extractor de documentos académicos?

Que modelo o alimenta?

En que difire Extractor de documentos académicos da ferramenta normal de conversión de PDF a Markdown?

Manexa ecuacións matemáticas?

Disposicións de varias columnas?

E que hai das citas e referencias?

Que tan rápido vai?

Canto custa?

Que podo facer coa saída?

Están soportados os papeis dixitalizados?

Gardar os PDF enviados?

Hai unha API?

Obteña 10. 000 fichas gratuítas

Agarde — Obteña 10K tokens gratuítos!

Queres máis?