用于对输入的论文 ID、arXiv URL 或 Hugging Face papers URL 自动提取论文原文,并输出中文解读与数据库字段 JSON。支持指定 claude、copilot、openclaw 三种 CLI agent 工具执行,默认使用 copilot,并固定使用 GPT-5 mini。技能会优先调用 hf papers info/read 生成 metadata.json 与 full.md;若 hf papers info 失败,则自动通过 CLI agent 调用 mineru 技能提取 full.md,并用 arXiv API 补充 metadata.json,然后再通过同一次 agent 调用同时生成中文报告和严格 JSON 的数据库提取结果。
这个技能现在提供了一个真正可执行的脚本入口,而不是只给手工命令示例。
给定一篇论文 ID、arXiv URL/PDF URL 或 Hugging Face papers URL,完成两步工作:
hf papers info/read,写出 metadata.json 与 full.md如果 hf papers info 无法获取到论文信息,则自动切换为:
支持的 agent tool:
默认值:
/Users/glennge/Desktop/paper_agent_reading/
└── YYYY-MM-DD/
└── 论文唯一ID/
├── full.md
├── metadata.json
├── 中文解读.md
└── 数据库提取.json
脚本会自动提取论文 ID,并优先从已有 metadata.json 复用;未命中缓存时,优先通过 hf papers info 推导 YYYY-MM-DD 和论文唯一 ID。若 hf papers info 失败,则退回到 arXiv API 获取发布日期和基础 metadata,并通过 mineru 技能生成 full.md。
脚本路径:
skills/paper-interpret-zh/interpret_paper.py
默认用 copilot:
/Users/glennge/anaconda3/bin/python interpret_paper.py "https://arxiv.org/pdf/2604.02296"
改用 copilot:
/Users/glennge/anaconda3/bin/python interpret_paper.py "https://arxiv.org/pdf/2604.02296" --agent-tool copilot
改用 openclaw:
/Users/glennge/anaconda3/bin/python interpret_paper.py "https://arxiv.org/pdf/2604.02296" --agent-tool openclaw
查看将执行的命令:
/Users/glennge/anaconda3/bin/python interpret_paper.py "https://arxiv.org/pdf/2604.02296" --dry-run
忽略缓存并强制重跑:
/Users/glennge/anaconda3/bin/python interpret_paper.py "https://arxiv.org/pdf/2604.02296" --force
claude -p "<多行中文指令>" \
--output-format text \
--permission-mode bypassPermissions \
--allow-dangerously-skip-permissions \
--add-dir /Users/glennge/work/github/AInews_Radar/skills/paper-interpret-zh \
--add-dir /Users/glennge/Desktop/paper_agent_reading
copilot --model gpt-5-mini -p "<多行中文指令>" \
--allow-all \
--output-format text \
-s \
--no-ask-user \
--add-dir /Users/glennge/work/github/AInews_Radar/skills/paper-interpret-zh \
--add-dir /Users/glennge/Desktop/paper_agent_reading
openclaw agent --local --json \
--agent main \
-m "<多行中文指令>" \
--thinking minimal \
--timeout 1800
hf papers info 获取 metadata 与发布日期hf papers read 获取论文全文 Markdownhf papers info 失败时,自动通过 CLI agent 调用 mineru 技能生成 full.mdhf papers info 失败时,自动通过 arXiv API 回填 metadata.json 与发布日期中文解读.md 必须包含:
并且要求:
数据库提取.json 必须包含且仅包含以下字段:
并且要求:
canonical_id <- metadata.idtitle <- metadata.titleauthors <- metadata.authors[].nameabstract <- metadata.summarypublishedAt <- metadata.published_atgithubStars <- metadata.github_starsgithubRepo <- metadata.github_repooneLiner <- metadata.ai_summarycategory <- metadata.ai_keywordstitle、titleZh为中英文标题,中文标题要直接翻译自英文title,内容保持一致,只做语言调整abstract、abstractZh 为中英文的摘要,中文摘要要直接翻译自英文摘要,且内容保持一致,只做语言调整oneLiner、oneLinerZh 为中英文的一句话总结,一般不超过 200 字,且内容保持一致,只做语言调整valuePoints、valuePointsZh 必须是 JSON 数组,概括论文核心要点,中文要点要直接翻译自英文要点,且内容保持一致,只做语言调整githubStars 必须是数字或 nullfullReadZh 必须直接写完整中文详读 Markdown 内容category 必须是总结论文的核心研究方向标签,一般3-5组短词数组核心概括hf papers info/readMINERU_TOKEN,供 mineru skill 使用echo $MINERU_TOKEN
脚本会输出 JSON,包含:
/Users/glennge/anaconda3/bin/python -m unittest test_interpret_paper.py