经管研究多模型对抗评分 / critique 工具。对应 full_research_workflow Step 2 / 3 / 5 / 9 / 11。用户在设置页选定"评审模型组"(多 provider),本 skill 并行调度所有选中的模型对假设 / 方案 / 检验结果做独立评审,聚合后输出共识 + 分歧。四个模式:discuss(假设研究价值讨论)、score(1-10 评分 + threshold 过滤)、design-critique(方案批评)、result-critique(结果批评)。
full_research_workflow 在多个 step 复用。用户感知上只看到"多模型对抗",不需要知道底层是 SDK 直连还是 MCP(实际上是直接调用用户配置的多个 provider)。significance-verdict(结果判定)给出。discuss(对应 Step 2)输入:idea/stage_1_hypotheses.md 中的 X 个假设。
任务:对每个假设,让每个选中的模型独立分析其研究价值。可搜索文献(若 provider 支持),判断:
每轮每个模型出一份分析报告。如此循环几轮(默认 critique_rounds = 2),每轮后让上一轮的模型读到其他模型的意见,再次修正自己的分析,直到每个假设都较好(所有模型共识比较收敛)或达到轮数上限。
输出:idea/stage_2_critique_rounds.md,每轮追加,含每个模型每个假设的分析 + 本轮共识摘要。
score输入:idea/stage_1_hypotheses.md + idea/stage_2_critique_rounds.md(若 Mode 1 已跑过)。
任务:每个模型独立给每个假设 1-10 分,评分维度(每个维度 1-10,最终总分为加权平均):
聚合:所有模型的加权总分再平均,得到每个假设的最终 score。
Threshold 过滤:
score_threshold(默认 7)的假设 → 按分数从高到低排列,进入"通过名单"rescue_rounds(默认 2)轮机会修改后重新打分。若仍不过线,进入 idea/eliminated_pool.md 供未来回避。Human-in-the-loop(默认开启):在 threshold 过滤后、进入 Step 4 前,把通过名单给用户确认。用户可:
输出:idea/stage_3_ranked.md,含所有假设的逐模型评分、聚合分数、通过 / 淘汰状态。同时更新 idea/eliminated_pool.md。
design-critique(对应 Step 5 + Step 9)输入:planner/stage_7_baseline_design.md(Step 5 时)或 executor/stage_2_explanation_robustness.md 中的 Mechanism / Robustness 方案(Step 9 时)。
任务:每个模型独立审查方案,重点批评:
输出:Accept / Modify / Reject + 具体修改建议。
聚合规则:
输出:追加到对应阶段文件的 critique 小节。
result-critique(对应 Step 11)输入:executor/stage_2_explanation_robustness.md 中的机制 / 异质性 / 稳健性结果。
任务:每个模型独立批评:
输出:对每个检验给出"Convincing / Suggestive / Not convincing"标签 + 理由。
输出:verdict/stage_2_extended_verdict.md,给出:
本 skill 通过调用 mcp__coase-critic-panel__invoke 这个 tool 完成多模型对抗评分。该 tool 由 Coase 内建的 in-process MCP server 暴露,会读取用户在"设置 → 评审模型组"里配置的 provider 列表,并行向每个 provider 发起裸 Anthropic Messages API 调用(不走完整 Agent SDK CLI,成本低、速度快),返回聚合后的多模型独立回答。
mcp__coase-critic-panel__invoke({
user_prompt: string, // 发给每个评审模型的用户消息
system_prompt?: string, // 可选:给评审模型设定角色(例如"经管审稿人")
max_tokens?: number, // 默认 4096
timeout_ms?: number, // 默认 60000
})
每个 mode(discuss / score / design-critique / result-critique)按以下套路:
mcp__coase-critic-panel__invoke({ user_prompt, system_prompt })调用 tool 前:
mcp__coase-critic-panel__invoke 返回 isError=true 且提示"评审模型组尚未配置",停下来告诉用户去设置页勾选至少 2 个不同 provider,不要继续ok=false 的条目,在聚合时明确标注哪些模型失败 / 超时,剩余模型是否够形成对抗(< 2 则停下)idea/stage_2_critique_rounds.mdidea/stage_3_ranked.md + 更新 idea/eliminated_pool.mdplanner/stage_7_baseline_design.md 或 executor/stage_2_explanation_robustness.mdverdict/stage_2_extended_verdict.md