PDF a Markdown Extractor de PDF PDF a texto Extractor de documentos académicos Documento de investigación a texto Máis →

Extractor de PDF de arXiv

Uso comercial aceptado Máis de 380 modelos Sen marca de auga Non é preciso rexistrarse

Deixe un preprint de arXiv, un artigo de revista ou un capítulo de tese — a IA convérteo en texto limpo con sabor a LaTeX. As ecuacións matemáticas permanecen como ecuacións, os deseños de varias columnas desenvólvense, e as citas presérvanse. Xestionado por Meta Nougat- base.

Deixe de usar un preprint de arXiv, obteña un texto limpo con sabor a LaTeX con todas as ecuacións representadas en liña. Xestión de disposicións de varias columnas, referencias intactas. Gratuito, con IA.

Como usar Extractor de PDF de arXiv

Introduza a súa entrada

Escriba texto, envíe un ficheiro ou describa o que queira. Non se precisa conta.

Prema para xerar

A nosa IA procesa a túa solicitude en segundos empregando os mellores modelos de código aberto.

Obter e compartir

Obteña, copie ou comparta o seu resultado. Gratuito para uso persoal e comercial.

Empregar esta ferramenta mediante API

Automatice esta ferramenta a partir do seu propio código. Punto final REST compatíbel con OpenAI, autenticación por token de portador, non se require SDK adicional. Os custos dos tokens son iguais aos da interface web.

Documentación da API Obter a chave da API

curl -X POST https://api.free.ai/v1/chat/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen7b", "messages": [{"role": "user", "content": "Use the Extractor de PDF de arXiv tool on: ..."}]}'

Ferramentas libres de IA relacionadas

PDF a Markdown

Extractor de PDF

PDF a texto

Extractor de documentos académicos

Documento de investigación a texto

Extractor de PDF de arXiv — FAQ

Insira un preprint de arXiv e a IA converterá todo o documento nun texto limpo con sabor a LaTeX. As ecuacións volverán como LaTeX, as disposicións de varias columnas desenroladas, as referencias intactas. Construído en Meta Nougat, adestrado especificamente en millóns de páxinas de arXiv.

O corpus de adestramento de Nougat era arXiv preprints, polo que é absolutamente brillante na familia de disposicións IEEE / ACM / NeurIPS / ICML / arXiv. Outros extractores de PDF asfixian coas matemáticas de varias columnas; este foi deseñado para iso.

Obteña o PDF de arXiv (por ex. arxiv. org/ pdf/ 2401. 12345), envíeo aquí, e obterá un único ficheiro.txt co artigo completo como texto con sabor LaTeX. Non se precisa ningunha chave da API de arXiv; só precisamos o PDF.

Si, esa é a característica do título. As matemáticas en liña son « $... $ », as matemáticas mostradas son « $$... $$ ». Mesmo as ecuacións rasterizadas en documentos antigos saen correctamente porque o modelo trata cada páxina como unha imaxe.

Xestión automática. O estilo IEEE de dúas columnas é a disposición máis común de arXiv e Nougat desenvólvea na orde de lectura correcta sen unha bandeira de configuración.

Si, os marcadores « [12] » / « [Smith2020] » quedan onde lles corresponde e a lista completa de referencias extraese intacta para o uso en BibTeX / Zotero.

~8- 15 segundos/ páxina. Un documento de conferencia de 12 páxinas tarda ~2- 3 min. Documentos de máis de 30 páxinas ao estilo NeurIPS con apéndices: 8- 12 min. Enviar e marchar.

300 tokens/ páxina, piso 600. A maioría dos artigos da conferencia arXiv (8- 15 páxinas) son de 2. 400- 4. 500 tokens. O fondo diario gratuíto cobre ~ 1- 2 artigos/ día para usuarios rexistrados; os plans de pago son ilimitados.

Envíeo a ChatGPT / Claude para « explicar este artigo », construír un RAG persoal sobre os artigos gardados, procurar semánticamente a súa lista de lectura, copiar ecuacións no seu propio proxecto LaTeX ou ler o artigo como texto simple no seu teléfono.

Si, Nougat OCR internamente. arXiv foi renderizado en LaTeX durante máis de 25 anos, polo que a maioría dos preprints son dixitais limpos. Os documentos dixitalizados máis antigos funcionan, pero a fidelidade matemática cae lixeiramente; dixitalice de novo a máis de 300 PPP para obter os mellores resultados.

Os PDF son eliminados inmediatamente despois da extracción. A saída LaTeX consérvase 24 horas (anónimo) / 7 días (ligazón de compartición pagada). Nunca se emprega para adestramento. Os PDF de arXiv son públicos CC- BY de todos os xeitos, pero non os almacenamos de ningunha maneira.

Si — POST multipart `file` to /v1/document/academic-pdf/. JSON response with `text_url`, `pages`, `preview`, `tokens`, `share_url`. Bearer auth (sk-free-…) gives 10K free tokens/month. /api/ for curl example.

Inscríbete gratis para obter 30.000 tokens

Crear unha conta libre

Non se require tarxeta de crédito

Como valora esta ferramenta?

Extractor de PDF de arXiv

Resultado

Como usar Extractor de PDF de arXiv

Introduza a súa entrada

Prema para xerar

Obter e compartir

Empregar esta ferramenta mediante API

Ferramentas libres de IA relacionadas

Extractor de PDF de arXiv — FAQ

Que é o extractor de PDF de arXiv?

Por que arXiv en concreto?

Como o uso?

As ecuacións son válidas?

Orden de lectura multi- columna?

Preservar as citas?

Velocidade?

Precios?

Que podo facer coa saída?

Están soportados os PDF escaneados de arXiv?

Privacidade?

API?

Obteña 10. 000 fichas gratuítas

Agarde — Obteña 10K tokens gratuítos!

Queres máis?