技能檔案

academic-search Skill

Name: academic-search Skill
Author: mugpeng

学术论文搜索、引用分析与元数据提取专用 Skill。【自动触发条件——出现以下任一信号时立即加载本 Skill，无需用户显式说明】意图信号（中文）： - 搜论文 / 找论文 / 查论文 / 调研论文 / 检索文献 / 文献综述 / 综述 - 顶会 / 顶刊 / CCF / NeurIPS / ICML / ICLR / ACL / EMNLP / CVPR / KDD / SIGIR / WWW - 引用数 / 被引 / 引用关系 / 引用量 - BibTeX / 参考文献格式 / 导出引用 - 作者发表列表 / 某人的论文 / 某人在哪发了什么 - arXiv / Semantic Scholar / Google Scholar / PubMed / ACM DL / IEEE - 知网 / CNKI / 中国知网 / 学位论文 / 硕士论文 / 博士论文 / 中文文献 / 中文期刊 - PDF 链接 / 论文 PDF / 开放获取 - 摘要 abstract / 元数据意图信号（英文）： - search paper / find paper / look up paper / literature review / survey - citation count / citation graph / citing / cited by - BibTeX / reference export - top conference / top journal / venue ranking - author publication list / papers by X URL 信号（出现以下域名的链接时自动触发）： - arxiv.org / ar5iv.org - semanticscholar.org - scholar.google.com - dl.acm.org - ieeexplore.ieee.org - pubmed.ncbi.nlm.nih.gov - paperswithcode.com - cnki.net / kns.cnki.net 覆盖平台：arXiv、Semantic Scholar、Google Scholar、ACM DL、IEEE Xplore、PubMed、Papers with Code、CNKI（中国知网）

mugpeng1 星標2026年4月13日

職業
分類: 學術

技能內容

前置检查

在开始前，检查环境就绪状态：

bash ~/.claude/skills/academic-search/scripts/check-deps.sh

Node.js 22+：必需（用于 CDP 浏览器模式）。仅使用 API 平台时可不检查。
Chrome remote-debugging：仅在访问 Google Scholar 或其他需要浏览器自动化的平台时必需。在 Chrome 地址栏打开 chrome://inspect/#remote-debugging，勾选 Allow remote debugging for this browser instance。
curl：必需，用于 API 调用。

arXiv、Semantic Scholar、PubMed、Papers with Code 等 API 平台无需 Chrome 远程调试即可使用。

S2 API Key（强烈建议）：无 Key 时 S2 速率上限极低，单 session 多次调用必触发 429。免费注册即可获得更高配额：https://www.semanticscholar.org/product/api#api-key-form。有 Key 时在请求头加 x-api-key: {your_key}。

搜索哲学

相關技能

academic-search Skill | Skills Pool

技能檔案

academic-search Skill

mugpeng1 星標2026年4月13日

職業
分類: 學術

技能內容

前置检查

在开始前，检查环境就绪状态：

bash ~/.claude/skills/academic-search/scripts/check-deps.sh

Node.js 22+：必需（用于 CDP 浏览器模式）。仅使用 API 平台时可不检查。
Chrome remote-debugging：仅在访问 Google Scholar 或其他需要浏览器自动化的平台时必需。在 Chrome 地址栏打开 chrome://inspect/#remote-debugging，勾选 Allow remote debugging for this browser instance。
curl：必需，用于 API 调用。

arXiv、Semantic Scholar、PubMed、Papers with Code 等 API 平台无需 Chrome 远程调试即可使用。

搜索哲学

相關技能

失败信号	含义	方向调整
API 429 / Rate exceeded	本次会话消耗超配额，不是暂时波动	等待 15s+ 或切换 CDP 模式；不要同一请求重试
Jina/WebFetch 超时	该页面对静态抓取不友好	改用 curl 直接调 API 或切换 CDP
S2 返回结果为空	query 措辞问题，或该平台无收录	换关键词组合，或换 arXiv/PubMed
平台返回"内容不存在"	未必真的不存在，可能是访问方式问题	检查 URL 参数是否完整，换平台验证
同一方式重试 3 次无改善	路径错了，不是还没找到方法	重新评估目标，换平台或换访问方式

需求	首选平台	访问方式	备注
CS/Math/Physics/统计论文搜索	arXiv	REST API	完全开放，PDF 直链
引用数、引用/被引关系	Semantic Scholar	REST API	免费 Key 可提升速率
作者主页、全部论文	Semantic Scholar	REST API	/author/{id}/papers
生物医学、生命科学	PubMed	NCBI E-utilities	完全开放
ML 论文 + 代码仓库	Papers with Code	REST API	无需鉴权
ACM 顶会论文 (SIGKDD/WWW 等)	ACM DL	WebFetch + Jina	BibTeX 导出端点可直接访问
IEEE 期刊/会议论文	IEEE Xplore	WebFetch / Jina	有机构 Key 时用官方 API
广泛引用数 / 全平台覆盖	Google Scholar	CDP（必须）	无 API，反爬严重
论文是否存在 / 基础元数据	Semantic Scholar	REST API	支持 DOI / arXiv ID 互查
中文文献（期刊/学位论文/会议）	CNKI（知网）	CDP（必须）	无公开 API；机构登录后全文可得

筛选维度	数据来源	说明
引用数阈值	S2 `citationCount`	经典论文通常引用数高；新兴方向可适当放低阈值
发表年份	所有平台	综述类需要覆盖历史；最新进展限定近 2-3 年
Venue 等级	S2 `venue` + `references/venue-rankings.md`	CS 会议参考 CCF 分级；优先 CCF-A/B
开放 PDF	S2 `externalIds.ArXiv` 存在即可得	只要有 ArXiv ID 就标 ✓，不依赖 openAccessPdf（该字段经常为 null）
代码可用性	Papers with Code API	ML 论文用 `paperswithcode.com/api/v1/papers/?arxiv_id={id}` 自动补全代码列

# DOI 查询
curl -s "https://api.semanticscholar.org/graph/v1/paper/DOI:{doi}?fields=title,authors,year,abstract,citationCount,openAccessPdf"

# arXiv ID 查询
curl -s "https://api.semanticscholar.org/graph/v1/paper/ARXIV:{arxiv_id}?fields=title,authors,year,abstract,citationCount,openAccessPdf"

# Semantic Scholar 作者搜索
curl -s "https://api.semanticscholar.org/graph/v1/author/search?query={author_name}&fields=name,affiliations,paperCount,citationCount"

# 获取作者全部论文（分页）
curl -s "https://api.semanticscholar.org/graph/v1/author/{author_id}/papers?fields=title,year,citationCount,externalIds&limit=100&offset=0"

bash ~/.claude/skills/academic-search/scripts/check-deps.sh

# 创建新 tab，导航到目标页
TARGET=$(curl -s "http://127.0.0.1:${CDP_PROXY_PORT:-3456}/new?url=https://scholar.google.com" | node -p "JSON.parse(require('fs').readFileSync(0, 'utf8')).targetId")

# 执行 JS 提取数据
curl -s -X POST "http://127.0.0.1:${CDP_PROXY_PORT:-3456}/eval?target=$TARGET" -d 'document.title'

# 点击元素（CSS 选择器）
curl -s -X POST "http://127.0.0.1:${CDP_PROXY_PORT:-3456}/click?target=$TARGET" -d 'button[type=submit]'

# 完成后关闭 tab
curl -s "http://127.0.0.1:${CDP_PROXY_PORT:-3456}/close?target=$TARGET"

适合分治	不适合分治
多平台并发查同一论文（arXiv + S2 + PubMed）	查询有依赖关系（先搜索再按结果查详情）
批量查询 N 篇不相关论文	简单单平台单次 API 查询
多个作者主页并行抓取	几次 curl 就能完成的轻量任务

核实目标	一手来源
论文元数据（标题、作者、DOI）	发表平台（ACM DL / IEEE / arXiv）的官方页面
引用数	Google Scholar（最全）> Semantic Scholar
代码实现	Papers with Code / 论文官方 GitHub
会议/期刊信息	主办方官网

文件	何时加载
`references/api-cookbook.md`	需要 API 调用示例、参数说明、响应字段映射时
`references/metadata-schema.md`	整理提取结果、多平台去重合并、生成 BibTeX 时
`references/cdp-api.md`	需要 CDP 浏览器操作时（Google Scholar、CNKI 等）
`references/venue-rankings.md`	标注 CS 会议/期刊等级（CCF 分级）时
`references/site-patterns/{domain}.md`	确定目标平台后，读取对应站点经验
`references/site-patterns/cnki.net.md`	知网检索时必读：登录态要求、DOM 选择器、数据库代码

标题	年份	Venue	引用数	PDF
Attention Is All You Need	2017	NeurIPS [CCF-A]	120,000+	✓ arXiv
BERT: Pre-training...	2019	NAACL [CCF-B]	80,000+	✓ arXiv

方式	端点	适用场景
JS click	`/click`	通用，速度快
真实鼠标	`/clickAt`	需要触发文件对话框或绕过反自动化检测
文件上传	`/setFiles`	直接设置 file input，绕过对话框

academic-search Skill

前置检查

搜索哲学

academic-search Skill

前置检查

搜索哲学

平台选择矩阵

核心能力

关键词搜索

结果筛选

精确论文查找

元数据提取

PDF 获取

BibTeX 导出

作者主页解析

CDP 模式（Google Scholar 及其他需要浏览器自动化的平台）

启动

操作方式

并行分治策略

信息核实

站点经验

References 索引

Goplaces

Research Ops

Editor

Fact Checker

Deep Research

Academic Researcher