AI Academic Review Board — multi-agent peer review for research papers. Use when: user wants to review a paper/experiment design, run a peer review session, set up a review board for a research project, or evaluate research methodology. NOT for: code review, investment decisions, or simple proofreading.
用 LLM multi-agent 模拟学术同行评审,在论文投稿前发现方法论缺陷。支持多研究范式(v2.0)。
| 框架 | 来源 | 我们借鉴了什么 |
|---|---|---|
| AgentReview | Georgia Tech, EMNLP 2024 | Inclusive AC 风格、强制排序、数值锚点 |
| MARG | Northwestern / Allen AI, 2024 | 专业化分工、内部讨论、Refinement |
| PRE | 清华, CIKM 2024 | 位序随机化、匿名评审、质量追踪 |
8 位专家 + 1 位 GM (General Manager)
4 阶段: 独立评审 → 交叉讨论 → 精炼去重 → 加权投票 + GM 裁决
6 个研究范式: 经济金融 | CS/AI | 临床流行病 | 实验行为 | 自然工程 | 生物组学
| 范式 | 目录 |
|---|
| 状态 |
|---|
| 典型领域 |
|---|
| 实证经济与金融 | economics-finance/ | ✅ | 金融、经济、会计 |
| 计算机科学与 AI | cs-ai/ | ✅ | ML、NLP、CV、机器人 |
| 临床与流行病学 | clinical-epidemiology/ | ✅ | 医学、药学、公卫 |
| 实验与行为科学 | experimental-behavioral/ | ✅ | 心理、教育、行为经济 |
| 自然科学与工程 | natural-science-engineering/ | ✅ | 物理、化学、材料 |
| 生物与组学 | biology-omics/ | ✅ | 基因组、神经、生态 |
范式选择看方法论,不看院系。详见
paradigm_role_structure.md。
Layer 2 核心专家(方法论三角)— 每人 5 票:
| 角色 | 经济金融版 | CS/AI 版 | 覆盖 |
|---|---|---|---|
| Methodology Critic | 识别策略/因果推断 | 问题设定/方法创新性 | 研究设计 |
| Experiment Designer | 回测/point-in-time | 消融/基线公平性 | 实验设计 |
| Statistician | Fama-MacBeth/年度FDR | bootstrap/Friedman | 统计分析 |
Layer 1 + 3 一般专家 — 每人 3 票:
| 角色 | 覆盖 | 层 |
|---|---|---|
| Devil Reviewer | 致命缺陷、claim-evidence gap | L1 |
| Domain Expert | 理论根基(按领域完全不同) | L3 |
| Literature Scout | 文献覆盖、定位准确性 | L1 |
| Reproducibility Auditor | 数据溯源、代码复现 | L1 |
| Ethics & Compliance | 研究伦理、合规 | L3 |
投票力分布: 核心 3×5=15 / 一般 N×3(N=4-5)
| 阶段 | 输入 | 专家 | 成本 | 核心问题 |
|---|---|---|---|---|
| 想法 | 1 页研究提案 | 3 个(Domain + Literature + Devil) | ~20K token | 值不值得做?有没有人做过? |
| 设计 | 实验方案 + 数据说明 | 7 个全上 | ~66K token | 实验设计有没有坑?⚠️ ROI 最高 |
| 结果 | 结果 + 统计表 + 鲁棒性 | 7 个全上 | ~66K token | 结论是真的还是 artifact? |
| 投稿前 | 完整论文草稿 | 7 个全上 | ~66K token | Reviewer 2 会怎么打? |
想法阶段可跳过 Phase 2-3,只收集独立评估。设计阶段是 ROI 最高的时机——这时候发现问题只需要改方案,投稿前发现问题要推翻重做。
评审前运行知识包生成器,为 Reproducibility Auditor 注入代码架构上下文:
python3 scripts/build-knowledge.py --topic "{议题}" --paradigm "{范式名}"
5 步流程:跨语言关键词提取 → GitNexus 查询 → blast radius 展开 → 角色过滤 → Markdown 输出。
--paradigm 缺省时默认 economics-finance。
前提:项目已用 gitnexus analyze 索引。未索引时自动跳过,不影响其他专家。
每位专家维护独立学习记忆:累积统计、校准范例(好/坏提案示范)、知识补充、关注调整。
模板见 templates/expert-memory.md。
首次评审前 + 新增专家时,用包含已知缺陷的测试文档校准所有专家。 目标:确保 7 位专家对 "什么算 P0/P1/P2" 有共识。
# 1. 在项目中创建 review-board 目录
mkdir -p {project}/review-board/{prompts,scripts,sessions,cache}
# 2. 复制模板(从 skill 目录)
cp -r ~/academic-review-board/prompts/_shared {project}/review-board/prompts/
cp -r ~/academic-review-board/prompts/economics-finance {project}/review-board/prompts/ # 或你需要的范式
cp ~/academic-review-board/prompts/orchestration.md {project}/review-board/prompts/
cp ~/academic-review-board/prompts/gm-academic.md {project}/review-board/prompts/
cp ~/academic-review-board/scripts/build-knowledge.py {project}/review-board/scripts/
cp ~/academic-review-board/templates/* {project}/review-board/cache/
# 3. 自定义
# - gm-academic.md: 修改 Security Boundaries
# - roster.md: 确认角色配置和可选角色启用
# - build-knowledge.py: 修改 REPO_NAME
# 4. 索引代码库(可选)
cd {project} && gitnexus analyze
# 1. 生成知识包附录
python3 scripts/build-knowledge.py --topic "{议题}" --paradigm "{范式}"
# 2. 准备知识包 (knowledge-pack.md)
# 包含:议题说明 + 论文草稿/实验方案 + 参考文献 + 安全边界
# 3. 按 orchestration.md 执行 4 阶段
# Phase 0: 确认范式 + 加载 roster
# Phase 1-4: 通过 sessions_spawn 并行调度 N 位专家
| 可调项 | 默认 | 说明 |
|---|---|---|
| 研究范式 | economics-finance | 6 个范式可选,看方法论不看院系 |
| 专家数量 | 7-8 | 由 roster.md 动态配置(含可选角色) |
| 投票权重 | 核心5/一般3 | 可改为等权 |
| Phase 2 交叉讨论 | 开启 | 时间紧可跳过 |
| FATAL 机制 | +3 分 | 可关闭或调整加分值 |
| Ethics Auditor | 按范式 | 医学/心理必开,金融/工程可选 |
| GitNexus 集成 | 开启 | 无代码库的纯理论论文可关闭 |