实现目标：$ARGUMENTS

目标

把一轮算法设计真正落地到源码中，并在实现结束时把 DEV_MEMORY/NOW.md 整理成“算法文档初稿”。

这里的“算法文档初稿”应当参考当前正式算法文档结构，包含除训练信息以外的全部内容，并为后续人工补充训练/测试 HTML 文档预留目录。

重要：agent_ppo/ 只是目录名（源于最初实现为 PPO），不代表必须保持 PPO 结构。你可以在该目录下实现任何算法（DQN、SAC、A3C 等），只要接口兼容即可。

强制前置步骤

根据用户指令，判断实现用户指定算法/继续完成NOW.md
当前 baseline 算法和正式算法文档是什么

如果这些信息不清楚，先回到 /kaiwu-dev-init，不要直接改代码。

查看当前所处分支，是否为该算法实现对应分支，若否，则根据当前实现的算法创建新分支

git branch
git checkout -b feature/*

改动目标	主要文件
观测特征、合法动作、奖励 shaping	`agent_ppo/feature/preprocessor.py`
样本结构、GAE、回报计算	`agent_ppo/feature/definition.py`
网络结构	`agent_ppo/model/model.py`
算法 loss、优化逻辑	`agent_ppo/algorithm/algorithm.py`
Agent 推理/训练接口	`agent_ppo/agent.py`
超参数	`agent_ppo/conf/conf.py`
训练环境配置	`agent_ppo/conf/train_env_conf.toml`
训练流程、终局奖励、监控上报	`agent_ppo/workflow/train_workflow.py`
系统训练配置	`conf/configure_app.toml`
切换算法	`conf/app_conf_gorge_chase.toml` + `conf/algo_conf_gorge_chase.toml`

方法	说明
`reset`
`observation_process`
`predict`
`exploit`
`learn`
`save_model`
`load_model`
`action_process`

Kaiwu Algo Implementation

Kaiwu Algo Implementation

目标

强制前置步骤

实现前必须具备的前置知识

1. 开发文档与外部参考理解

2. 项目源码入口理解

3. 改动定位知识

执行步骤

Step 1：确认本轮实现范围

Step 2：补齐开发文档约束

Step 3：按源码链路落地修改

Step 4：做最小验证（必须在 Docker 中执行）

Step 5：更新 NOW.md

Step 6：创建算法文档目录并生成初稿

步骤 6.1：预创建算法文档目录

步骤 6.2：生成算法文档初稿

步骤 6.3：同步更新 NOW.md

算法文档目录结构

算法文档初稿模板

3. Agent 接口

4. 特征处理

4.1 特征向量

4.2 合法动作处理

4.3 奖励设计

4.4 终局奖励

5. 样本结构与 GAE

6. 模型结构

7. 算法训练逻辑

8. 超参数汇总

8.1 算法超参数

8.2 环境配置

8.3 系统训练配置

9. 训练 Workflow

10. 已知限制

11. 待训练补充项

Pytorch Patterns

Regex Vs Llm Structured Text

Effect

Flags

WPF to WinUI 3 Migration Skill

At Dispatch V2