PDF a Markdown Extractor PDF PDF al texto Extractor de papel académico Documento de investigación al texto Más →

Extractor PDF arXiv

Uso comercial OK 380+ modelos Sin marca de agua No es necesario inscribirse

Suelta una preimpresión, un periódico o un capítulo de tesis de arXiv — IA lo convierte en texto limpio con sabor a LaTeX. Las ecuaciones matemáticas permanecen como ecuaciones, los diseños multicolumnas se desenrollan, las citas se conservan. Powered by Meta Nougat-base.

Suelta una preimpresión arXiv, consigue un texto limpio con sabor a LaTeX con cada ecuación renderizada en línea. Diseños multicolumna manejados, referencias mantenidas intactas. Libres, con IA.

Cómo usar Extractor PDF arXiv

Introduzca su entrada

Escriba texto, cargue un archivo o describa lo que desee. No necesita cuenta.

Haga clic en generar

Nuestra IA procesa su solicitud en segundos utilizando los mejores modelos de código abierto.

Descargar & compartir

Descarga, copia o comparte tu resultado. Gratis para uso personal y comercial.

Utilice esta herramienta a través de API

Automatice esta herramienta a partir de su propio código. Endpoint REST compatible con OpenAI, Auth Token de Portador, no requiere SDK adicional. Los costos de token coinciden con la interfaz web.

Documentación API Obtener clave de API

curl -X POST https://api.free.ai/v1/chat/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen7b", "messages": [{"role": "user", "content": "Use the Extractor PDF arXiv tool on: ..."}]}'

Herramientas de IA gratuitas relacionadas

PDF a Markdown

Extractor PDF

PDF al texto

Extractor de papel académico

Documento de investigación al texto

Extractor PDF arXiv — FAQ

Deja caer una preimpresión arXiv y la IA convierte todo el papel en texto limpio con sabor a LaTeX. Las ecuaciones vuelven como correcto LaTeX, diseños de varias columnas sin heridas, referencias intactas. Construido en Meta Nougat, entrenado específicamente en millones de páginas arXiv.

El corpus de entrenamiento de Nougat era preimpresiones arXiv — por lo que brilla absolutamente en el IEEE / ACM / NeurIPS / ICML / arXiv familia de diseño. Otros extractores PDF se ahogan en matemáticas de varias columnas; este fue diseñado para ello.

Descargue el PDF desde arXiv (por ejemplo, arxiv.org/pdf/2401.1245), cárguelo aquí, recupere un solo archivo.txt con el papel completo como texto con sabor a LaTeX. No se necesita una clave API arXiv; solo necesitamos el PDF.

Sí — esa es la característica principal. Matemáticas en línea es `$...$`, matemáticas mostradas `$$...$$$`. Incluso las ecuaciones renderizadas en raster en los documentos antiguos vienen correctamente porque el modelo trata cada página como una imagen.

Manejado automáticamente. El estilo IEEE de dos columnas es el diseño arXiv más común y Nougat lo desenvuelve en un orden de lectura adecuado sin una bandera de configuración.

Sí, los marcadores de la línea `[12]` / `[Smith2020]` permanecen donde pertenecen, y la lista de referencia completa al final se extrae intacta para uso de BibTeX/Zotero aguas abajo.

~8-15 sec/page. Un documento de conferencia de 12 páginas toma ~2-3 min. Neurips-estilo 30+ documentos de página con apéndices: 8-12 min. Enviar y marcharse.

300 tokens/página, planta 600. La mayoría de los documentos de conferencias arXiv (8-15 páginas) son 2.400-4,500 tokens. Cubre ~1-2 documentos/día gratis para los usuarios que han iniciado sesión; los planes de pago son ilimitados.

Feed it to ChatGPT / Claude for "explicar este documento", construir RAG personal sobre sus documentos guardados, buscar semánticamente su lista de lectura, copiar ecuaciones en su propio proyecto LaTeX, o leer el documento como texto plano en su teléfono.

Sí — Nougat OCRs internamente. arXiv ha sido renderizado LaTeX durante más de 25 años, por lo que la mayoría de las preimpresiones son digitales limpias. Los papeles escaneados más antiguos funcionan pero la fidelidad matemática disminuye ligeramente; reescanear en 300+ DPI para obtener los mejores resultados.

PDFs eliminados justo después de la extracción. La salida de LaTeX se mantiene 24h (anónimo) / 7 días (enlace compartido pagado). Nunca se utiliza para el entrenamiento. arXiv PDFs son CC-BY público de todos modos, pero no los almacenamos de ninguna manera.

Sí — POST multipart `file` to /v1/document/academic-pdf/. Respuesta de JSON con `text_url`, `pages`, `preview`, `tokens`, `share_url`. Auth portador (sk-free-...) da 10K tokens gratis/mes. /api/ por ejemplo curl.

Regístrate gratis por 30.000 tokens

Crear cuenta gratuita

No se requiere tarjeta de crédito

¿Cómo calificaría a esta herramienta?

Extractor PDF arXiv

Resultado

Cómo usar Extractor PDF arXiv

Introduzca su entrada

Haga clic en generar

Descargar & compartir

Utilice esta herramienta a través de API

Herramientas de IA gratuitas relacionadas

Extractor PDF arXiv — FAQ

¿Qué es el extractor PDF arXiv?

¿Por qué arXiv específicamente?

¿Cómo lo uso?

¿Llegaron las ecuaciones?

¿Orden de lectura multicolumna?

Citas conservadas?

¿Velocidad?

¿Precios?

¿Qué puedo hacer con la salida?

¿Se admiten archivos PDF arXiv escaneados?

¿Privacidad?

¿ API?

Obtener 10.000 tokens gratis

Espere... ¡Obtenga 10 mil tokens gratis!

¿Quieres más?