论文下载、精读与归档。自动下载 Arxiv 论文 PDF(支持按 ID、标题搜索或本地路径),精读生成阅读报告,更新 Benchmark 和模型迭代图。无需预先下载,skill 内含完整的下载流程。
$ARGUMENTS: Arxiv ID(如 2603.02555)、论文标题(如 "OneRec Technical Report")或本地 PDF 路径,可选 --title "论文标题"如果参数是 Arxiv ID(匹配 \d{4}\.\d{4,5} 格式):
python3 scripts/download-paper.py <arxiv_id> --title "<标题>"
如果参数是论文标题(非 Arxiv ID 格式且非本地路径):
python3 scripts/download-paper.py --search "<论文标题>"
如果参数是本地 PDF 路径:
python3 scripts/download-paper.py --local <pdf_path> --title "<标题>"
脚本输出论文目录路径(如 archive/papers/2026/xxx/),目录包含 document.pdf + meta.json。
从 PDF 中提取所有图表(矢量图 + 位图),保存到论文目录的 figures/ 子目录:
uv run python3 scripts/extract-figures.py <paper_dir>/document.pdf <paper_dir>/figures
脚本输出 figures/figures.json(包含每张图的文件名、页码、caption)和 figures/fig_01.png 等图片文件。
精读时在正文对应位置插入图片引用:。根据 figures.json 中的 caption 和页码,将图片插入到精读文档中讨论该图的段落附近。
必须直接用 Read 工具读 PDF(document.pdf,pages 参数分页读取,每次最多 20 页)。禁止使用 Python 库(pymupdf/fitz/PyPDF2 等)将 PDF 转换为文本。
当论文引用了其他论文的关键概念或方法,且必须理解前置论文内容才能准确解读当前论文时,可用 Grep 工具在 archive/papers/ 下搜索 reading.md 获取相关精读报告。仅在核心方案直接依赖前置工作时才检索。
生成中文精读文档 reading.md,要求:
reading.md 为纯 Markdown 正文,不包含 YAML frontmatter。 元数据通过 Step 4 的 JSON 写入 meta.json。
精读原则:
精读文档应当详尽完整,目标是让读者无需打开原文也能完全理解论文。预期长度 3000-8000 字中文(对应 PDF 6-15 页的论文)。如果论文非常技术(含大量公式/算法),可以更长。宁可长不能短——精读不是摘要。
正文要求:
\tag{N} 编号,从 1 递增。示例:$$\mathcal{L} = \sum_{i} \ell_i \tag{1}$$ 引用。参考 figures/figures.json 中的 caption 和页码确定插入位置。仅当提取的图片无法覆盖时才用 Mermaid 重绘禁止行为:
` 包裹数学符号/公式(必须用 $...$ 行内公式或 $$...$$ 块级公式)讨论与局限性:
格式灵活:正文没有严格格式要求,按论文内容自然组织,但要保证上述每个要求都被覆盖
用 Write 工具写入论文目录。
标签选择:从 config.yaml 的 tags 部分选择结构化标签,优先使用已有标签。仅当论文方向与现有标签显著不同时才创建新标签。每篇论文至少 1 个 task 标签 + 1 个 method 标签 + 1 个 scene 标签。
公司归类(仅工业界论文):
config.yaml 的 companies 列表config.yaml:
companies:
...
- name: <显示名,如 Snowflake>
keywords: [<匹配关键词,如 Snowflake>]
新增公司后系统会自动重新加载,无需重启。
将以下数据整理为 JSON,写入临时文件,调用更新脚本:
python3 scripts/update-paper-data.py /tmp/paper-update-<arxiv_id>.json
JSON 格式参见 update-data-schema.md。
/home/sardine/my_archive/.venv/bin/archivist deploy
报告:论文标题、阅读报告路径、Benchmark/DAG 更新条数、冲突信息(如有)。