Use when the user has one or more concrete research ideas and wants a strict reviewer-style evaluation before investing further, with emphasis on novelty, theory-practice linkage, implementation cost, story quality, and whether the idea tackles a genuinely hard problem.
这个 skill 的定位不是继续“润色 idea”,而是对一个具体 idea 做严格但平衡的可行性评估。
默认立场:
核心目标有五个:
Feasibility Scoreidea-filter推荐组合关系:
idea-filter -> idea-eval -> check-idea -> write-paper
idea-filter:解决“该往哪些方向找”idea-eval:解决“这个具体 idea 值不值得做”check-idea:解决“这个存活下来的 idea 如何展开理论、实验与批判性审视”write-paper:解决“如何写成论文”如果用户拿来的是多个候选 idea,优先先用本 skill 做严格筛选,再把 surviving idea 交给 check-idea。
先评价 idea as is,再考虑是否值得修。
不要一上来就帮它补洞。
如果一个 idea 必须经过大规模重写才能成立,那么原始 idea 大概率就不够好。
判断新颖度时,不要看标题、术语和表面形式,要问:
理论深度不是“有没有公式”,而是:
如果理论只能起装饰作用,明确降权。
默认偏好:
如果 idea 的成立依赖高成本验证,默认严格降权。
好的 story 不是修辞,而是结构清楚:
问题定义 -> 为什么现有做法不够 -> 你的 insight -> 为什么它该 work -> 如何验证 -> 理论/机制如何支撑
如果一个 idea 只能写成“我们又试了一个小技巧”,那 story 就是弱的。
优先奖励真正碰硬问题的 idea:
不要高估那种“数字上也许能涨一点,但问题本身不硬”的题。
可接受输入:
idea-filter 输出的候选默认输出文件:
idea_eval.md如果用户指定了其他路径,按用户要求覆盖默认路径。
如果文件已存在,更新对应 section,不要无脑追加重复版本。
总分不是唯一依据。
先看 critical risks,再看五维评分,再计算 feasibility score,最后再给 verdict。
出现以下问题时,要明确标成高风险,但不要自动直接终止评估。
只有当多个核心风险同时成立,或某一项明确使主张不可验证时,才建议 Kill:
| Dimension | Weight | What to judge |
|---|---|---|
Novelty / Community Value | 0.30 | 是否有真正新的核心贡献,以及社区是否会在意 |
Theory Depth / Theory-Practice Link | 0.20 | 理论是否真正支撑实践主张,而不是装饰 |
Implementation Cost / Feasibility | 0.20 | 是否能在低资源、短周期内完成有效验证 |
Story / Paper Shape | 0.15 | 是否能形成清晰完整的论文叙事闭环 |
Hard Problem Fit | 0.15 | 是否真的在解决难题,而不是解决边角问题 |
以下问题需要额外扣分:
Baseline treadmill penalty:必须靠大量对比才显得成立Sensitivity penalty:对 prompt / model / data 分布过度敏感Ablation burden penalty:需要大量消融才能勉强解释Workshop-only penalty:更像小观察、小修补、小迁移,而不是 main-track 题Decorative-theory penalty:理论写得出来,但不支撑主张最终必须输出一个 Feasibility Score (0-100)。
计算原则:
Main Score = 10 * weighted average-3-7-12Kill,可额外做 -5 到 -15 的 critical risk adjustment0-100解释区间:
85-100: 高可行性,值得继续推进70-84: 可行,但有明确风险,适合谨慎推进55-69: 边界可行,建议先做低成本 MVP40-54: 原始形态不够强,建议重构0-39: 不建议继续投入对每个主维度按 0-10 打分,并保持严格标准:
9-10: 很强,明显有顶会主线潜力7-8: 有明显价值,但仍有几个关键风险点5-6: 有一定研究味道,但主线不够硬或不够稳3-4: 很勉强,通常只适合局部尝试或重构0-2: 基本不成立,或价值明显不足注意:
6/10 不是“还不错”,而是明显不够强必须按以下顺序执行,不要跳步。
先把 idea 压缩成一个最小、可审查的对象:
如果连这五点都无法清晰写出,先明确指出:
idea object is not yet well-formed。
逐条检查 critical risk conditions,并给出:
PassBorderlineFail如果出现明显 Fail,不要急着继续美化,先说明最核心的风险点。
但除非它已经明显不可做,否则仍然继续完成后续评分。
对五个主维度逐项打分,并且每项都要包含:
特别要求:
必须回答:
必须区分:
核心理论支柱:没有它,论文主张明显变弱装饰性理论包装:有更好,没有也不影响主结论必须判断:
必须判断:
必须判断:
从严苛审稿人的角度,必须输出:
Strongest accept caseStrongest reject case注意:这一阶段只是补充压力测试,不能取代总评估。
最终结论仍然要回到 feasibility score 和五维主评估。
只有在 idea 仍有保留价值时,才做修正建议。
修正建议必须最小化,只能包括:
不要在这里重新发散出 10 个新 idea。
最终只能落到以下四类之一:
Invest
check-ideaCheap MVP First
Reframe
Kill
默认映射关系:
85-100 -> 优先 Invest70-84 -> Invest 或 Cheap MVP First55-69 -> 优先 Cheap MVP First40-54 -> 优先 Reframe0-39 -> 优先 Kill如果 score 与文字判断冲突,必须显式解释为什么。
对每个 idea,按以下结构输出到 idea_eval.md:
# Idea Evaluation
## 1. Idea Snapshot
- Title:
- Core claim:
- Intended contribution:
- Target hard problem:
- Required evidence:
## 2. Preliminary Verdict
- Feasibility Score: X/100
- Verdict: Invest / Cheap MVP First / Reframe / Kill
- Confidence: High / Medium / Low
## 3. Critical Risk Screen
| Check | Result | Notes |
|-------|--------|-------|
## 4. Five-Dimension Review
| Dimension | Score | Weight | Weighted | Key reason |
|-----------|-------|--------|----------|------------|
## 5. Penalties
| Penalty | Severity | Notes |
|---------|----------|-------|
## 6. Score Summary
- Main weighted score:
- Penalty deduction:
- Critical risk adjustment:
- Final Feasibility Score:
## 7. Core Strengths
- ...
## 8. Fatal Weaknesses
- ...
## 9. Reviewer Simulation
- Strongest accept case:
- Strongest reject case:
- Top 3 objections:
- One-line reject reason:
- Most dangerous failed experiment:
## 10. Theory Assessment
- Core theory pillar:
- Decorative theory layer:
- Theory-practice linkage judgment:
## 11. Feasibility Assessment
- Cheapest decisive MVP:
- Main experiment cost:
- Major engineering burden:
- Failure cost:
## 12. Story Assessment
- Problem -> gap -> insight -> validation loop:
- Is this a real paper story or a technique-looking-for-a-task?
## 13. Minimal Salvage Plan
- Best reframe:
- Minimal theory anchor:
- Minimal MVP:
- Alternate paper form:
## 14. Final Recommendation
- Decision:
- Why:
- Whether to pass into check-idea:
如果输入的是多个 idea:
novelty, story, MVP, failure mode换术语、换模块位置、换任务表面形式,不等于核心贡献新。
如果公式不解释关键机制、不支撑核心实验,它只是装饰。
低成本是优点,但不是贡献本身。
便宜但无聊的题,仍然不值得做。
好讲不等于重要。
如果解决的问题本身不够关键,story 再顺也很难成为强题。
很多题 technically 可以修,但修的成本已经接近重做一个新题。
这时应直接判 Kill 或 Reframe。
这个 skill 的第一职责是提高判断质量,而不是默认拒绝或默认放行。
如果一个 idea 的主要优点只是:
但它没有:
那么它的 Feasibility Score 不应高,通常也不值得继续投入。