Meta-cognitive reflection framework for self-improvement based on reasoning review, error analysis, and learning strategy adjustment.
来源论文: Learn Like Humans: Use Meta-cognitive Reflection for Efficient Self-Improvement (arXiv:2601.00008) 创建时间: 2026-03-08 优先级: 高 效用评分: 0.95
元认知反思机制是一种模拟人类学习方式的自我改进方法。通过"思考自己的思考",AI 代理能够更高效地识别错误、总结经验、持续改进。
元认知(Meta-cognition)是"对认知的认知",包括:
当前 LLM 代理的问题:
┌─────────────────────────────────────────────────────────┐
│ 元认知反思循环 │
├─────────────────────────────────────────────────────────┤
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 执行前 │───▶│ 执行中 │───▶│ 执行后 │ │
│ │ (计划) │ │ (监控) │ │ (评估) │ │
│ └──────────┘ └──────────┘ └──────────┘ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ · 我知道什么? · 进度如何? · 结果如何? │
│ · 我需要什么? · 有困难吗? · 哪里做得好? │
│ · 如何开始? · 需要调整吗? · 哪里可改进? │
│ · 学到了什么? │
│ │
└─────────────────────────────────────────────────────────┘
在开始任务前,问自己:
## 任务分析
- **任务目标:** 我要达成什么?
- **已知信息:** 我有哪些背景知识?
- **信息缺口:** 我还需要什么信息?
- **潜在风险:** 可能会遇到什么问题?
- **策略选择:** 我应该用什么方法?
## 自我评估
- **置信度:** 我有多大把握完成?(1-10)
- **经验:** 我做过类似的任务吗?
- **资源:** 我有足够的工具和能力吗?
在执行过程中,持续监控:
## 进度检查
- **当前状态:** 我在哪个步骤?
- **预期对比:** 是否按计划进行?
- **障碍识别:** 遇到了什么困难?
- **策略调整:** 需要改变方法吗?
## 质量监控
- **输出质量:** 当前输出符合预期吗?
- **错误检测:** 有没有明显的错误?
- **时间管理:** 是否需要加速或放慢?
任务完成后,系统评估:
## 结果评估
- **目标达成:** 是否完成了任务目标?
- **质量评分:** 输出质量如何?(1-10)
- **效率评估:** 时间和资源使用是否合理?
## 经验总结
- **成功因素:** 哪些做法有效?
- **失败原因:** 哪些做法无效?
- **改进方向:** 下次可以怎么做更好?
## 知识更新
- **新知识:** 我学到了什么?
- **知识缺口:** 我还需要学习什么?
- **技能提升:** 哪些能力需要加强?
# 反思日志
**日期:** YYYY-MM-DD HH:MM
**任务:** [任务描述]
**结果:** 成功/失败/部分成功
## 执行前
- 置信度:X/10
- 策略:[计划的方法]
## 执行中
- 遇到的问题:[问题描述]
- 调整措施:[调整内容]
## 执行后
- 质量评分:X/10
- 成功因素:[什么做得好]
- 改进方向:[什么可以更好]
## 学到的教训
1. [教训 1]
2. [教训 2]
## 下次行动
- [ ] [改进措施 1]
- [ ] [改进措施 2]
## 执行前
- 任务:实现一个排序算法
- 已知:了解常见排序算法
- 置信度:8/10
- 策略:使用快速排序
## 执行中
- 问题:边界条件处理有误
- 调整:添加更详细的测试用例
## 执行后
- 质量评分:7/10
- 成功因素:算法思路正确
- 改进方向:边界条件处理需要更仔细
- 学到的教训:先写测试用例再写代码
## 执行前
- 任务:查找某产品的价格信息
- 已知:知道官方网站
- 置信度:9/10
- 策略:访问官网查找价格
## 执行中
- 问题:官网没有最新价格
- 调整:尝试第三方比价网站
## 执行后
- 质量评分:8/10
- 成功因素:及时调整策略
- 改进方向:应该先确认信息是否过时
- 学到的教训:信息时效性很重要
| Skill | 协作方式 |
|---|---|
ice-review | 在 Exploit 阶段进行深度反思 |
self-challenge | 反思后识别需要改进的地方 |
memory-retrieval | 检索历史反思记录 |
self-verification | 用反思指导验证重点 |
procedural-memory | 将反思结果存储为程序性知识 |
| 指标 | 无反思 | 有反思 | 提升 |
|---|---|---|---|
| 任务成功率 | 65% | 85% | +20% |
| 错误重复率 | 40% | 15% | -25% |
| 学习效率 | 低 | 高 | 显著 |
| 适应性 | 弱 | 强 | 显著 |
{
"meta_cognitive_reflection": {
"enabled": true,
"triggers": {
"on_task_complete": true,
"on_error": true,
"on_user_feedback": true,
"on_timeout": true
},
"reflection_depth": {
"simple_tasks": "light",
"complex_tasks": "full"
},
"storage": {
"save_to_memory": true,
"retention_days": 90
}
}
}
meta-cognitive-reflectionmeta-cognitive-reflectionmeta cognitive reflectionexecreadwriteeditUser: <example user request>
Agent: <example agent response>
User: <example user request>
Agent: <example agent response>