Paper Report | Skills Pool

技能内容

Overview

生成忠实原文的 Markdown 论文汇报稿，用于学术组会/读书会汇报。

核心原则：

忠实原文结构与表述，不做教学化改写
仅 Abstract、Introduction、Experiment Conclusion 三处可压缩
Method、核心实验、消融、局限等章节高保真呈现
图表使用实际裁剪的 PNG 图片嵌入（非文字占位符）
公式保留原始 LaTeX 与符号定义
报告开头必须放置从论文 PDF 首页面自动截取的标题截图
报告头部“发表”和“代码”字段必须可点击跳转（Markdown 超链接）
全文去除文献交叉引用标记（如 [13]、[1,2]），仅保留正文语义
支持导出单一 Markdown 文件（图片内嵌 base64，便于直接分发）

默认产物要求：最终交付文件必须为图片内嵌（base64）的单一 Markdown，不保留并行的非内嵌版本。

输出：论文阅读｜年份期刊｜英文题目.md（单一 Markdown 文件，文件名与一级标题一致）

Dependencies

复用 paper-reader skill 的脚本（路径：~/.config/opencode/skills/paper-reader/scripts/）：

pip install PyMuPDF>=1.23.0 pdfplumber>=0.10.0 Pillow

Workflow

PDF → 直接使用；arXiv/Semantic Scholar/DOI → 通过 firecrawl 下载 PDF
创建工作目录：{paper-name}/

运行章节解析：

python ~/.config/opencode/skills/paper-reader/scripts/pdf_to_sections.py <pdf_path> <output_dir>/

读取 <output_dir>/sections.json，获取 title、authors、abstract、sections[]

标题截图裁剪（复用现有 validate_fidelity.py，不新增脚本）：
```
python ~/.config/opencode/skills/paper-report/scripts/validate_fidelity.py extract-title <pdf_path> <output_dir>/images/title-screenshot.png
```
→ 将论文第一页标题区自动裁剪为 <output_dir>/images/title-screenshot.png
图表裁剪：
```
python ~/.config/opencode/skills/paper-reader/scripts/extract_figures.py <pdf_path> <output_dir>/images/
```
→ 读取 <output_dir>/images/figure_map.json，获取每张图/表的 id、kind、file、page、caption

公式提取：

python ~/.config/opencode/skills/paper-reader/scripts/extract_formulas.py <pdf_path> <output_dir>/

→ 读取 <output_dir>/formulas.json，获取公式的 LaTeX、位置、置信度

章节类型	处理策略	详见
Abstract	可压缩（≤50% 篇幅）	compression-policy.md
Introduction	可压缩（保留问题定义与贡献声明）	compression-policy.md
Method / Approach	高保真（关键公式、图表、符号定义完整保留）	fidelity-rules.md
Experiments（设置与主结果）	高保真（实验配置、对比表、图表完整保留）	fidelity-rules.md
Ablation / Analysis	高保真	fidelity-rules.md
Experiment Conclusion	可压缩（保留核心数值结论）	compression-policy.md
Limitations / Future Work	高保真	fidelity-rules.md
Related Work	高保真（除引言中已覆盖的部分）	fidelity-rules.md

python scripts/validate_fidelity.py <output_dir>/论文汇报稿.md <output_dir>/sections.json <output_dir>/images/figure_map.json

python scripts/embed_images_single_md.py <input_md> <output_single_md>

python scripts/embed_images_single_md.py \
  "<output_dir>/论文阅读 ｜ 年份 期刊 ｜ 英文题目.md" \
  "<output_dir>/论文阅读 ｜ 年份 期刊 ｜ 英文题目.md"

python scripts/embed_images_single_md.py \
  "<output_dir>/论文阅读 ｜ 年份 期刊 ｜ 英文题目.md" \
  "<output_dir>/论文阅读 ｜ 年份 期刊 ｜ 英文题目.md" \
  --compress --process-data-uri --max-width 1400 --jpeg-quality 80

{paper-name}/
├── 论文阅读 ｜ 年份 期刊 ｜ 英文题目.md   # 最终汇报稿（与一级标题一致，图片已内嵌）
├── images/                 # 裁剪的图表 PNG
│   ├── figure_001.png
│   ├── figure_002.png
│   └── ...
├── figure_map.json         # 图表元数据
├── formulas.json           # 公式元数据
└── sections.json           # 章节结构

Paper Report | Skills Pool