Convierte documentos PDF a Markdown estructurado y optimizado para agentes de IA, sin perder ningún dato. Usa esta skill SIEMPRE que el usuario pida convertir un PDF a Markdown, texto estructurado, o cuando diga "quiero que un agente entienda este PDF", "extrae el contenido de este PDF", "convierte este documento", "hazlo legible para IA", "pásalo a markdown" o cualquier variante. La salida NO es una conversión literal — es una reestructuración semántica completa optimizada para LLMs: jerarquía clara, tablas normalizadas, metadatos explícitos, contexto preservado, sin ruido tipográfico. Úsala también cuando el usuario suba un PDF y pida "procésalo", "analízalo" o "extrae todo".
Convierte PDFs en Markdown semánticamente estructurado, optimizado para que agentes de IA lo procesen sin ambigüedad ni pérdida de información.
La meta NO es replicar el formato visual del PDF. La meta es preservar el 100% de la información semántica y presentarla en una estructura que un LLM pueda consumir con máxima comprensión:
bash scripts/pdf/install.sh
Ejecuta el extractor dual (pdfplumber + pymupdf) sobre el PDF. El resultado queda en <nombre>_extract.json junto al archivo original:
python3 scripts/pdf/extract.py <archivo.pdf>
El JSON resultante contiene: metadatos del documento, texto y tablas por página (pdfplumber) y bloques de texto e imágenes (pymupdf). Usa ambas fuentes para máxima cobertura.
Antes de estructurar, clasifica el documento para aplicar el esquema correcto:
| Tipo detectado | Señales | Esquema a aplicar |
|---|---|---|
| Académico / Científico | Abstract, Referencias, DOI, autores | ACADEMIC |
| Manual / Técnico | Pasos numerados, advertencias, código | TECHNICAL |
| Legal / Contractual | Cláusulas, artículos, considerandos | LEGAL |
| Informe / Reporte | Ejecutivo, hallazgos, recomendaciones | REPORT |
| Formulario / Plantilla | Campos, casillas, tablas de datos | FORM |
| Libro / Texto corrido | Capítulos, secciones, párrafos largos | BOOK |
| General | Mezcla o no clasificable | GENERAL |
---