Name: Content Report
Author: tahianahajanirina

搜索技能.../

Content Report | Skills Pool

Read

/home/infres/tandriam-25/fil_rouge/venv/bin/python << 'PYEOF'
import fitz, json, sys
PDF_PATH = sys.argv[1]
doc = fitz.open(PDF_PATH)
meta = doc.metadata
toc = doc.get_toc()
print(json.dumps({
    "title": meta.get("title", ""),
    "author": meta.get("author", ""),
    "pages": doc.page_count,
    "toc": [{"level": t[0], "title": t[1], "page": t[2]} for t in toc[:30]]
}, indent=2, ensure_ascii=False))
# Extraire les 40 premieres pages
for i in range(min(40, doc.page_count)):
    page = doc[i]
    text = page.get_text()
    images = page.get_images(full=True)
    drawings = page.get_drawings()
    has_visual = len(images) > 0 or len(drawings) > 5
    if has_visual:
        pix = page.get_pixmap(dpi=150)
        pix.save(f"/tmp/_cr_page_{i}.png")
    tables_md = []
    try:
        for t in page.find_tables().tables:
            md = t.to_markdown()
            if any(c for row in t.extract() for c in row if c and c.strip()):
                tables_md.append(md)
    except Exception:
        pass
    print(json.dumps({
        "page": i+1, "text": text[:2000],
        "images": len(images), "tables": tables_md,
        "rendered": has_visual
    }, ensure_ascii=False))
doc.close()
PYEOF

grep -n "^class \|^def \|^import \|^from " "$0"

# Content Report: [nom du fichier ou URL]

## Source Info

| Propriete | Valeur |
|-----------|--------|
| Type | PDF / Web / Python / Image / Notebook / ... |
| Source | [chemin ou URL] |
| Taille | [taille du fichier si local] |
| Date | [date de modification si local] |

## Summary

[2-5 phrases resumant le contenu principal]

## Key Content

[Contenu principal organise par sections/chapitres]

## Figures & Diagrams

[Description des elements visuels, ou "Aucun detecte"]

## Tables

[Tableaux en markdown, ou "Aucun detecte"]

## Structure

[Pour PDF: TOC. Pour code: hierarchie classes/fonctions. Pour web: structure des headings. Pour dossier: arborescence]

## References

[Liens, citations, imports, dependances trouves dans le contenu]

## Notes

[Observations : qualite, problemes, contenu manquant, encodage]

rm -f /tmp/_content_report.pdf /tmp/_cr_page_*.png

Content Report

Arguments

Taches

1. Detection du type

Content Report

Arguments

Taches

1. Detection du type

2a. Traitement PDF

2b. Traitement page web

2c. Traitement code Python

2d. Traitement image

2e. Traitement dossier

3. Generation du rapport

4. Cleanup

Feishu Doc

Summarize

Nano Pdf

Diffs

Customs Trade Compliance

Nutrient Document Processing