extrator de PDF arXiv

Utilização comercial OK 380+ modelos Sem marca de água Não é necessário inscrever
Modelo:
+ GPT-5, Claude, Gemini
Deixe uma pré-impressão de arXiv, papel de revista ou capítulo de tese — IA converte-o em texto limpo com sabor LaTeX. Equações matemáticas permanecem como equações, layouts multi-columnas ficam desgastados, citações preservadas. Powered by Meta Nougat-base.

Deixe um papel de pesquisa PDF aqui ou clique para upload

PDF até 50 MB. ~300 fichas por página (math-aware).

Equações de leitura + colunas desenroladas... ~10 seg/page
Opções avançadas
Resultado
Os tokens estão a ficar baixos. Obter mais tokens
Queres melhores resultados? Modelos premium (GPT-5 Ver Planos

❤️ Love this tool? Share it!

Inscreva-se para obter um link de referência e ganhar 25 mil fichas por amigo.

Queres mais? Inscreva-se gratuitamente para 30K tokens/dia + 10K bônus
Inscreva-se gratuitamente

Processando o seu pedido...

Largue uma pré-impressão arXiv, obtenha texto limpo com sabor LaTeX com cada equação traduzida em linha. Layouts multi-columnas manuseados, referências mantidas intactas. Grátis, com IA.

Como Utilizar extrator de PDF arXiv

1
Insira a sua entrada

Digite texto, carregue um arquivo ou descreva o que você quer. Nenhuma conta necessária.

2
Clique em gerar

Nossa IA processa seu pedido em segundos usando os melhores modelos de código aberto.

3
Baixar & compartilhar

Baixe, copie ou compartilhe seu resultado. Gratuito para uso pessoal e comercial.

Use esta ferramenta através da API

Automate esta ferramenta a partir do seu próprio código. Endpoint REST compatível com o OpenAI, Bearer-token auth, não é necessário SDK extra. Custos de token correspondem à interface web.

curl -X POST https://api.free.ai/v1/chat/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen7b", "messages": [{"role": "user", "content": "Use the extrator de PDF arXiv tool on: ..."}]}'

extrator de PDF arXiv — FAQ

A gota em uma pré-impressão arXiv e a IA converte todo o papel em texto limpo LaTeX-sabored. As equações voltam como layouts LaTeX, multi-columna adequados desvendar, referências intactas. Construídas em Meta Nougat, treinadas especificamente em milhões de páginas arXiv.

O corpus de treinamento de Nougat foi pré-impressor arXiv — por isso brilha absolutamente na IEEE / ACM / NeuriPS / ICML / arXiv família de layout. Outros extratores PDF soffocam em matemática multi-coluna; este foi projetado para ele.

Baixe o PDF do arXiv (por exemplo, arxiv.org/pdf/2401.12345), carregue-o aqui, volte um único arquivo.txt com o papel completo como texto saboreado por LaTeX. Não é necessária chave da API do arXiv; só precisamos do PDF.

Sim — essa é a característica do título. Matemática inline é `$...$`, exibido matemática `$...$`. Até mesmo equações arrendadas por raster em artigos antigos vêm através corretamente porque o modelo trata cada página como uma imagem.

Auto-manejado. Dois colunas IEEE-style é o layout mais comum arXiv e Nougat desmonta-o em ordem de leitura adequada sem uma bandeira de configuração.

Sim — inline `[12]` / `[Smith2020]` marcadores ficam onde pertencem, e a lista de referência completa no final é extraída intacta para uso a jusante BibTeX / Zotero.

~8-15 seg/page. Um papel de conferência de 12 páginas leva ~2-3 min. Neurips-style 30+ papel de página com apêndices: 8-12 min. Envie e vá embora.

300 fichas/página, piso 600. A maioria dos documentos de conferência de arXiv (8-15 páginas) são 2.400-4.500 fichas. Piscina gratuita diária cobre ~1-2 papeles/dia para usuários assinados; os planos pagos ficam ilimitados.

Alimenta-o para ChatGPT / Claude para "explicar este artigo", construir RAG pessoal sobre os seus artigos salvos, pesquisa semântica sua lista de leitura, copiar equações no seu próprio projeto LaTeX, ou ler o papel como texto simples no seu telefone.

Sim — Novot OCRs internamente. arXiv tem sido rendido por LaTeX por mais de 25 anos, então a maioria das pre-impressores são digitais limpos. Os artigos escaneados mais velhos trabalham mas a fidelidade matemática diminui ligeiramente; reescane em 300+ DPI para obter os melhores resultados.

PDFs excluídos logo após extração. A saída LaTeX é mantida 24h (anonim) / 7 dias (ligação de compartilhamento pago). Nunca usado para treinamento. arXiv PDFs são públicos CC-BY de qualquer forma, mas nós não os armazenamos de qualquer forma.

Sim — POST multipart `file' to /v1/document/academic-pdf /. Resposta JSON com `text_url`, `pages`, `preview`, `tokens`, `share_url`. Bear auth (free-sk-...) dá 10K free jets/mes. /api/ para o exemplo do curl.

Inscreva-se gratuitamente para 30.000 fichas

Criar Conta Livre

Não é exigido o cartão de crédito

Como iria avaliar esta ferramenta?

Love this tool? Share it!