Paddle 算子开发

架构概览

Python API (paddle.xxx)
    │
    ▼ (YAML 自动生成的调度代码)
算子 InferMeta ──→ 推导输出 shape/dtype
    │
    ▼
算子 Kernel ──→ 实际计算（CPU/GPU 分别实现）

YAML 配置是连接 Python API 与底层 Kernel 的桥梁，框架编译时自动生成调度代码。

开发流程

新增算子 xxx 需完成以下 6 步：

步骤 1：YAML 算子定义

在 paddle/phi/ops/yaml/ops.yaml 和 backward.yaml 中配置前向和反向算子。

关键配置项：op(名称)、args(输入)、output(输出)、infer_meta(推导函数)、kernel(计算函数)、backward(反向算子)。

快速示例：

# ops.yaml
- op: trace
  args: (Tensor x, int offset = 0, int axis1 = 0, int axis2 = 1)
  output: Tensor(out)
  infer_meta:
    func: TraceInferMeta
  kernel:
    func: trace
  backward: trace_grad

Paddle 算子开发

架构概览

Python API (paddle.xxx)
    │
    ▼ (YAML 自动生成的调度代码)
算子 InferMeta ──→ 推导输出 shape/dtype
    │
    ▼
算子 Kernel ──→ 实际计算（CPU/GPU 分别实现）

YAML 配置是连接 Python API 与底层 Kernel 的桥梁，框架编译时自动生成调度代码。

开发流程

新增算子 xxx 需完成以下 6 步：

步骤 1：YAML 算子定义

在 paddle/phi/ops/yaml/ops.yaml 和 backward.yaml 中配置前向和反向算子。

关键配置项：op(名称)、args(输入)、output(输出)、infer_meta(推导函数)、kernel(计算函数)、backward(反向算子)。

快速示例：

# ops.yaml
- op: trace
  args: (Tensor x, int offset = 0, int axis1 = 0, int axis2 = 1)
  output: Tensor(out)
  infer_meta:
    func: TraceInferMeta
  kernel:
    func: trace
  backward: trace_grad

现象	排查方向
找不到 `XxxInferMeta` 符号	检查 InferMeta 函数是否在 `.h` 中声明、YAML 中函数名是否拼写一致
找不到 `xxx` kernel	检查 `PD_REGISTER_KERNEL` 注册名是否与 YAML `kernel:func` 一致
Python 端 `_C_ops.xxx` 不存在	确认 YAML 配置正确且已重新编译，`pip install -e .` 已执行
参数数量不匹配	对照 YAML `args` 与 InferMeta/Kernel 函数签名的参数列表

内容	文件位置
前向 YAML	`paddle/phi/ops/yaml/ops.yaml`
反向 YAML	`paddle/phi/ops/yaml/backward.yaml`
InferMeta	`paddle/phi/infermeta/{unary,binary,multiary}.{h,cc}`
Kernel 头文件	`paddle/phi/kernels/xxx_kernel.h`
CPU Kernel	`paddle/phi/kernels/cpu/xxx_kernel.cc`
GPU Kernel	`paddle/phi/kernels/gpu/xxx_kernel.cu`
Python API	`python/paddle/` 对应子目录
单元测试	`test/legacy_test/test_xxx_op.py`

Paddle Op Dev

Paddle 算子开发

架构概览

开发流程

步骤 1：YAML 算子定义

Paddle Op Dev

Paddle 算子开发

架构概览

开发流程

步骤 1：YAML 算子定义

步骤 2：InferMeta 函数

步骤 3：Kernel 实现

步骤 4：Python API 封装

步骤 5：单元测试

步骤 6：编译与验证

6.1 增量编译

6.2 运行单元测试

6.3 验证要点

6.4 GPU 算子调试

6.5 常见编译错误排查

文件清单速查

显存优化

参考文档

Pytorch Patterns

Regex Vs Llm Structured Text

Effect

Flags

WPF to WinUI 3 Migration Skill

At Dispatch V2