Extractor PDF arXiv

Uso comercial OK 380+ modelos Sin marca de agua No es necesario inscribirse
Modelo:
+ GPT-5, Claude, Gemini
Suelta una preimpresión, un periódico o un capítulo de tesis de arXiv — IA lo convierte en texto limpio con sabor a LaTeX. Las ecuaciones matemáticas permanecen como ecuaciones, los diseños multicolumnas se desenrollan, las citas se conservan. Powered by Meta Nougat-base.

Deje un PDF de investigación aquí o haga clic para cargar

PDF hasta 50 MB. ~300 tokens por página (math-aware).

Leyendo ecuaciones + desenrollando columnas... ~10 seg/page
Opciones avanzadas
Resultado
Los tokens se están agotando. Obtener más tokens
¿Quieres mejores resultados? Modelos premium (GPT-5, Claude, Gemini) ofrecen una mayor calidad. Ver los planes

❤️ Love this tool? Share it!

Regístrate para obtener un enlace de referencia y ganar 25.000 tokens por amigo.

¿Quieres más? Regístrate gratis por 30K tokens/día + 10K bonus
Regístrate gratis

Procesando su solicitud...

Suelta una preimpresión arXiv, consigue un texto limpio con sabor a LaTeX con cada ecuación renderizada en línea. Diseños multicolumna manejados, referencias mantenidas intactas. Libres, con IA.

Cómo usar Extractor PDF arXiv

1
Introduzca su entrada

Escriba texto, cargue un archivo o describa lo que desee. No necesita cuenta.

2
Haga clic en generar

Nuestra IA procesa su solicitud en segundos utilizando los mejores modelos de código abierto.

3
Descargar & compartir

Descarga, copia o comparte tu resultado. Gratis para uso personal y comercial.

Utilice esta herramienta a través de API

Automatice esta herramienta a partir de su propio código. Endpoint REST compatible con OpenAI, Auth Token de Portador, no requiere SDK adicional. Los costos de token coinciden con la interfaz web.

curl -X POST https://api.free.ai/v1/chat/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen7b", "messages": [{"role": "user", "content": "Use the Extractor PDF arXiv tool on: ..."}]}'

Extractor PDF arXiv — FAQ

Deja caer una preimpresión arXiv y la IA convierte todo el papel en texto limpio con sabor a LaTeX. Las ecuaciones vuelven como correcto LaTeX, diseños de varias columnas sin heridas, referencias intactas. Construido en Meta Nougat, entrenado específicamente en millones de páginas arXiv.

El corpus de entrenamiento de Nougat era preimpresiones arXiv — por lo que brilla absolutamente en el IEEE / ACM / NeurIPS / ICML / arXiv familia de diseño. Otros extractores PDF se ahogan en matemáticas de varias columnas; este fue diseñado para ello.

Descargue el PDF desde arXiv (por ejemplo, arxiv.org/pdf/2401.1245), cárguelo aquí, recupere un solo archivo.txt con el papel completo como texto con sabor a LaTeX. No se necesita una clave API arXiv; solo necesitamos el PDF.

Sí — esa es la característica principal. Matemáticas en línea es `$...$`, matemáticas mostradas `$$...$$$`. Incluso las ecuaciones renderizadas en raster en los documentos antiguos vienen correctamente porque el modelo trata cada página como una imagen.

Manejado automáticamente. El estilo IEEE de dos columnas es el diseño arXiv más común y Nougat lo desenvuelve en un orden de lectura adecuado sin una bandera de configuración.

Sí, los marcadores de la línea `[12]` / `[Smith2020]` permanecen donde pertenecen, y la lista de referencia completa al final se extrae intacta para uso de BibTeX/Zotero aguas abajo.

~8-15 sec/page. Un documento de conferencia de 12 páginas toma ~2-3 min. Neurips-estilo 30+ documentos de página con apéndices: 8-12 min. Enviar y marcharse.

300 tokens/página, planta 600. La mayoría de los documentos de conferencias arXiv (8-15 páginas) son 2.400-4,500 tokens. Cubre ~1-2 documentos/día gratis para los usuarios que han iniciado sesión; los planes de pago son ilimitados.

Feed it to ChatGPT / Claude for "explicar este documento", construir RAG personal sobre sus documentos guardados, buscar semánticamente su lista de lectura, copiar ecuaciones en su propio proyecto LaTeX, o leer el documento como texto plano en su teléfono.

Sí — Nougat OCRs internamente. arXiv ha sido renderizado LaTeX durante más de 25 años, por lo que la mayoría de las preimpresiones son digitales limpias. Los papeles escaneados más antiguos funcionan pero la fidelidad matemática disminuye ligeramente; reescanear en 300+ DPI para obtener los mejores resultados.

PDFs eliminados justo después de la extracción. La salida de LaTeX se mantiene 24h (anónimo) / 7 días (enlace compartido pagado). Nunca se utiliza para el entrenamiento. arXiv PDFs son CC-BY público de todos modos, pero no los almacenamos de ninguna manera.

Sí — POST multipart `file` to /v1/document/academic-pdf/. Respuesta de JSON con `text_url`, `pages`, `preview`, `tokens`, `share_url`. Auth portador (sk-free-...) da 10K tokens gratis/mes. /api/ por ejemplo curl.

Regístrate gratis por 30.000 tokens

Crear cuenta gratuita

No se requiere tarjeta de crédito

¿Cómo calificaría a esta herramienta?

Love this tool? Share it!