Paddle 仓库调试

调试流程概览

调试遵循以下步骤：

描述问题并构造最小复现
代码定位与多假设验证
先写问题分析报告，再做最小修复
利用 Git / CI 收束和巩固结论

步骤 1：描述问题并构造最小复现

用简洁的自然语言说明：

触发步骤（命令、脚本、关键配置）
期望行为 vs 实际行为
是否只在特定环境 / 机器 / 设备 / 数据子集上出现

先确认 bug 能被稳定复现。若无法复现：

检查命令是否抄错、参数是否缺失
比对并对齐环境（Paddle / Python / CUDA / CUDNN / 驱动 / 显卡型号等）
确认与最初出问题的环境一致后再继续

抽取独立的 Python 脚本承载问题：

固定随机种子（numpy / random / paddle.seed 等）
使用固定、可序列化的小数据
去掉与问题无关的逻辑

目标：一条命令即可复现 python reproduce_xxx.py。

步骤 2：代码定位与多假设验证

使用工具定位代码

Paddle 仓库调试

调试流程概览

调试遵循以下步骤：

描述问题并构造最小复现
代码定位与多假设验证
先写问题分析报告，再做最小修复
利用 Git / CI 收束和巩固结论

步骤 1：描述问题并构造最小复现

用简洁的自然语言说明：

触发步骤（命令、脚本、关键配置）
期望行为 vs 实际行为
是否只在特定环境 / 机器 / 设备 / 数据子集上出现

先确认 bug 能被稳定复现。若无法复现：

检查命令是否抄错、参数是否缺失
比对并对齐环境（Paddle / Python / CUDA / CUDNN / 驱动 / 显卡型号等）
确认与最初出问题的环境一致后再继续

抽取独立的 Python 脚本承载问题：

固定随机种子（numpy / random / paddle.seed 等）
使用固定、可序列化的小数据
去掉与问题无关的逻辑

目标：一条命令即可复现 python reproduce_xxx.py。

观测方式	用途
打印与断言	在关键算子调用前后，打印 Tensor 的 shape、dtype、device、数值范围（min/max/mean）
对比法	对同一逻辑分别在 CPU / GPU 上运行，比较中间结果差异
版本与环境信息	记录 `paddle.__version__`、CUDA/CUDNN 版本、驱动信息等

构建产物路径	Python 加载路径	说明
`build/paddle/phi/libphi_core.so`	`build/python/paddle/libs/libphi_core.so`	phi core 库
`build/paddle/phi/libphi_gpu.so`	`build/python/paddle/libs/libphi_gpu.so`	phi GPU 库
`build/paddle/fluid/pybind/libpaddle.so`	`build/python/paddle/base/libpaddle.so`	主绑定库

Paddle Debug

Paddle 仓库调试

调试流程概览

步骤 1：描述问题并构造最小复现

步骤 2：代码定位与多假设验证

使用工具定位代码

Paddle Debug

Paddle 仓库调试

调试流程概览

步骤 1：描述问题并构造最小复现

步骤 2：代码定位与多假设验证

使用工具定位代码

带观测点的复现

步骤 3：先写问题分析报告，再做最小修复

步骤 4：利用 Git / CI 收束和巩固结论，最后总结保存为文件

CUDA / GPU 调试

注意事项

算子修复注意事项

CUDA API 与 Sticky Error 注意事项

CUDA Fork Safety 注意事项

Paddle 编译验证流程

.so 部署验证（关键踩坑点）

多路径调用链分析方法

调试案例

Things Mac

Trello

Production Scheduling

Jira Integration

Production Scheduling

Cost Aware Llm Pipeline