Paddle 3.0 编译器全链路

Paddle 3.0 的编译器体系通过 SOT → PIR → CINN 三阶段流水线，将用户的动态图 Python 代码编译为高性能 GPU Kernel，实现「动态图编写、编译器加速」的开发体验。

全链路概览

用户 Python 代码（动态图 eager mode）
  │
  ▼  Stage 0: SOT 图捕获
  PEP 523 eval_frame 拦截 → OpcodeExecutor 字节码模拟
  → FunctionGraph / StatementIR
  → paddle.jit.to_static(full_graph=True) 编译子图
  → pir::Program
  │
  ▼  Stage 1: PIR Pass 优化
  pir::Program（SSA 形式的 pd_op.* 算子图）
  │  ├── ShapeOptimizationPass（InferSymbolicShape 动态 shape 符号推导）
  │  ├── 组合算子分解 (DecompInterface → primitive operators)
  │  └── 通用 Pass 优化（常量折叠、死代码消除等）
  │
  ▼  Stage 2: CINN 编译
  ├── PdOpToCinnOpPass / PdOpToDynamicShapeCinnOpPass（算子映射）
  ├── add_cinn_pass → cinn_op.group（算子融合）
  ├── OpLower（Compute + Schedule）→ LoweredFunc
  ├── CodeGenCUDA_Dev → CUDA source → NVRTC → CUfunction
  ├── CompilationCache（编译缓存，相同子图复用已编译 Kernel）
  │
  ▼  Stage 3: 执行
  PirInterpreter 调度 → CinnJitInstruction → cuLaunchKernel

SOT → PIR 的衔接：SOT 捕获的 StatementIR 被包装为 Python 函数后，通过 paddle.jit.to_static(full_graph=True) 再次走 AST Transformer 路径编译为（参见）。这意味着 SOT 负责"图捕获"，而负责"图编译"。

组件	说明
OpcodeExecutor	模拟 Python VM 执行字节码，不真正计算，而是追踪 Tensor 操作
Variable 体系	将 Python 对象包装为 Variable（TensorVariable / ConstantVariable / ContainerVariable / CallableVariable）
Tracker	记录 Variable 来源（provenance），形成 DAG，用于生成 Guard
Guard	`Callable[[FrameType], bool]`，判断当前帧输入是否满足编译假设，用于缓存命中判断
FunctionGraph	收集 Tensor 相关操作，输出 StatementIR
StatementIR	4 种语句类型（call_api / call_method / call_sir / call_layer），最终经 `to_static(full_graph=True)` 编译为 Program
SideEffect	记录并回放模拟执行中对全局变量和可变对象的修改，保证语义等价
OpcodeInlineExecutor	跨函数边界模拟执行，实现子图跨函数融合

缩写	全称	场景
DDCF	Data-Dependent Control Flow	控制流条件依赖 Tensor 值（如 `if x.sum() > 0`）
UNSPS	Unsupported Simulation	无法模拟的 Python 操作（如某些 C 扩展、`.numpy()`）
CDBL	Custom Blacklist	用户或框架标记的不转换函数（如产生 -1 shape 的算子）
UNIMP	Unimplemented Opcode	尚未实现模拟的字节码指令

概念	关键类	说明
Type	`TypeID` / `AbstractType` / `TypeStorage` / `Type`	统一类型系统：TypeID 用 static 变量地址做唯一标识，Type 本质是指向 TypeStorage 的指针，相等性通过指针比较 O(1)
Value	`ValueImpl` / `OpResultImpl` / `OpOperandImpl`	SSA 值系统：OpResult 是算子输出（inline 0-5 / out-of-line），OpOperand 通过侵入式双向链表管理 use-chain
Operation	`Operation`（连续内存布局）	核心执行单元：`[OutOfLineResults
Block/Region	`Block` / `Region`	Block 持有 Operation 列表 + BlockArgument + terminator；Region 是 Block 的容器，约束 Value 作用域
Dialect	`BuiltinDialect` / `PaddleDialect` / `CinnDialect`	模块化容器：聚合一组 Type、Attribute、Op 定义，支持独立注册与扩展
Trait/Interface	`OpTraitBase` / concept-model 多态	Trait 是静态标记，Interface 通过 concept-model 实现多态分派，替代 C++ 虚函数

Dialect	职责	典型内容
`BuiltinDialect`	PIR 内置基础类型	`Float32Type`, `Int64Type`, `VectorType`, `DenseTensorType`
`PaddleDialect`	Paddle 算子定义	`pd_op.matmul`, `pd_op.relu`, `pd_op.conv2d`
`CinnDialect`	CINN 编译器专用	`cinn_op.group`, `cinn_op.yield`, `cinn_op.generate_shape`
`ControlFlowDialect`	控制流辅助	`cf.yield`, `cf.stack_create`, `cf.tuple_push`, `cf.tuple_pop`
`PaddleDialect`（控制流部分）	控制流算子	`pd_op.if`, `pd_op.while`

Kind	含义	典型算子
`kElementWise`	逐元素计算	relu, add, multiply
`kBroadcast`	含广播语义	broadcast_to
`kInjective`	单射映射	reshape, transpose, slice
`kReduction`	规约操作	reduce_sum, reduce_max
`kOutFusible`	规约但输出可继续融合	softmax 中间步骤
`kNonFusible`	不可融合	custom_call, sort

Paddle Design Compiler

Paddle Design Compiler

Paddle 3.0 编译器全链路

全链路概览

SOT（Symbolic Opcode Translator）

核心机制

Fallback 场景

使用方式

PIR（Paddle Intermediate Representation）

核心概念

核心 Dialect

PIR Program 结构

组合算子分解（Prim）

PIR Pass 框架

CINN 编译与执行

编译流水线（含动态 shape）

OpPatternKind 融合规则

Group-level Schedule（DynamicShapeGroupScheduler）

编译缓存（CompilationCache）

执行（PirInterpreter）

调试速查

什么场景看什么文件

源码入口

SOT

PIR

组合算子（Prim）

CINN

执行器（PIR-based）

Pytorch Patterns

Regex Vs Llm Structured Text

Effect

Flags

WPF to WinUI 3 Migration Skill

At Dispatch V2

步骤	说明
`DoLoopAlignment`	对齐各算子的循环范围
`DoComputeInline`	将简单计算内联到消费者
`OptimizeReduction`	优化规约算子的并行策略
`DoHorizontalLoopFusion`	水平融合：合并独立的并行循环
`DoVerticalLoopFusion`	垂直融合：合并生产者-消费者循环
`BindCudaAxis`	绑定循环到 CUDA threadIdx/blockIdx
`AllocateStorage`	分配 shared memory 和 local buffer

场景	应关注的文件
SOT 捕获失败 / fallback 过多	`python/paddle/jit/sot/opcode_translator/executor/opcode_executor.py` — 检查未支持的 opcode
SOT SIR 到 Program 编译失败	`python/paddle/jit/sot/symbolic/compile_cache.py` — `to_static(full_graph=True)` 环节
PIR 动态 shape 推导错误	`paddle/pir/src/dialect/shape/transforms/shape_optimization_pass.cc`
CINN 融合策略问题	`paddle/cinn/hlir/dialect/operator/transforms/add_cinn_pass.cc`
CINN 动态 shape 算子映射	`paddle/cinn/hlir/dialect/operator/transforms/pd_to_cinn_pass.cc` — `PdOpToDynamicShapeCinnOpPass`
CINN 编译缓存命中 / 未命中	`paddle/cinn/hlir/framework/pir/compilation_cache.cc`
CINN Schedule 调试	`paddle/cinn/ir/group_schedule/dy_shape_group_scheduler.cc`
CINN CodeGen CUDA 源码	`paddle/cinn/backends/codegen_cuda_dev.cc`
执行器 Kernel 启动	`paddle/fluid/framework/new_executor/pir_interpreter.cc`
执行器依赖分析 / 调度	`paddle/fluid/framework/new_executor/interpreter/stream_analyzer.cc`
执行器 Variable 内存泄漏	`paddle/fluid/framework/new_executor/garbage_collector/`

场景	参考文档
SOT 架构设计（eval_frame / OpcodeExecutor / Guard / Fallback）	references/sot-design.md
PIR 类型系统、Dialect、Trait/Interface 设计	references/pir-basics.md
PIR Program/Value/Operation 内存结构、ProgramTranslator	references/pir-program.md
CINN 从 GroupOp 到 CUDA Kernel 的完整编译流程	references/cinn-pipeline.md
PIR 控制流（IfOp/WhileOp）、反向 Stack 机制	references/control-flow.md
PIR 执行器（PirInterpreter）、Instruction 调度、Stream 分析、GC	references/executor.md

模块	路径
to_static 入口（full_graph 分发）	`python/paddle/jit/api.py`
eval_frame 入口	`python/paddle/jit/sot/opcode_translator/eval_frame_callback.py`
OpcodeExecutor	`python/paddle/jit/sot/opcode_translator/executor/opcode_executor.py`
OpcodeInlineExecutor	`python/paddle/jit/sot/opcode_translator/executor/opcode_inline_executor.py`
Variable 体系	`python/paddle/jit/sot/opcode_translator/executor/variables/`
Tracker	`python/paddle/jit/sot/opcode_translator/executor/tracker.py`
Guard	`python/paddle/jit/sot/opcode_translator/executor/guard.py`
FunctionGraph	`python/paddle/jit/sot/opcode_translator/executor/function_graph.py`
StatementIR	`python/paddle/jit/sot/symbolic/statement_ir.py`
SIR 编译缓存	`python/paddle/jit/sot/symbolic/compile_cache.py`
SideEffect	`python/paddle/jit/sot/opcode_translator/executor/side_effects.py`
符号 Shape 推导	`python/paddle/jit/sot/symbolic_shape/`

模块	路径
PIR 核心	`paddle/pir/include/core/` — `type.h`, `value.h`, `operation.h`, `block.h`, `program.h`
IRContext / StorageManager	`paddle/pir/src/core/ir_context.cc`, `storage_manager.cc`
Dialect 基类	`paddle/pir/include/core/dialect.h`
PaddleDialect	`paddle/fluid/pir/dialect/operator/ir/op_dialect.h`
控制流 Dialect	`paddle/pir/include/dialect/control_flow/ir/cf_op.h`, `cf_type.h`
控制流 Op 实现	`paddle/fluid/pir/dialect/operator/ir/control_flow_op.h`
Shape Dialect	`paddle/pir/include/dialect/shape/`
ShapeOptimizationPass	`paddle/pir/src/dialect/shape/transforms/shape_optimization_pass.cc`
InferSymbolicShape 接口	`paddle/pir/include/dialect/shape/interface/infer_symbolic_shape/`
Pass 框架	`paddle/pir/include/pass/pass.h`, `pass_manager.h`
Pattern Rewrite	`paddle/pir/include/pattern_rewrite/pattern_match.h`
DecompInterface（Prim 前向分解接口）	`paddle/fluid/pir/dialect/operator/interface/decomp.h`

模块	路径
前向分解规则	`paddle/fluid/primitive/decomp_rule/decomp_rule/composite.h`
反向分解规则（VJP）	`paddle/fluid/primitive/decomp_rule/decomp_vjp/details.h`
分解调度入口	`paddle/fluid/primitive/base/decomp_trans.cc`
Primitive 基础算子	`paddle/fluid/primitive/primitive/primitive.h`
VJP 接口	`paddle/fluid/primitive/vjp_interface/vjp.h`
Backend 适配	`paddle/fluid/primitive/backend/backend.h`

模块	路径
CINN 总入口 Pass	`paddle/cinn/hlir/dialect/operator/transforms/add_cinn_pass.cc`
算子映射（含动态 shape）	`paddle/cinn/hlir/dialect/operator/transforms/pd_to_cinn_pass.cc`
算子融合	`paddle/cinn/hlir/dialect/operator/transforms/cinn_group_cluster_pass.cc`
PirCompiler	`paddle/cinn/hlir/framework/pir_compiler.cc`
OpLower 实现	`paddle/cinn/hlir/framework/pir/op_lowering_impl.cc`
编译任务	`paddle/cinn/hlir/framework/pir/compilation_task.cc`
编译缓存	`paddle/cinn/hlir/framework/pir/compilation_cache.cc`
DynamicShapeGroupScheduler	`paddle/cinn/ir/group_schedule/dy_shape_group_scheduler.cc`
CodeGen	`paddle/cinn/backends/codegen_cuda_dev.cc`
NVRTC 编译	`paddle/cinn/backends/nvrtc/nvrtc_util.cc`
CINNKernelInfo 定义	`paddle/cinn/hlir/framework/pir/utils.h`
JitKernelOp 定义	`paddle/cinn/hlir/dialect/runtime/ir/jit_kernel_op.h`
AST IR 节点	`paddle/cinn/ir/`
Schedule 原语	`paddle/cinn/ir/schedule/`

模块	路径
Python Executor 入口	`python/paddle/base/executor.py`
StandaloneExecutor	`paddle/fluid/framework/new_executor/standalone_executor.cc`
InterpreterCore 统一入口	`paddle/fluid/framework/new_executor/interpretercore.cc`
PirInterpreter	`paddle/fluid/framework/new_executor/pir_interpreter.cc`
ProgramInterpreter（旧 IR 兼容）	`paddle/fluid/framework/new_executor/program_interpreter.cc`
PirStreamAnalyzer	`paddle/fluid/framework/new_executor/interpreter/stream_analyzer.cc`
Instruction 定义	`paddle/fluid/framework/new_executor/instruction/`
CinnJitInstruction	`paddle/fluid/framework/new_executor/instruction/`
Scope（变量容器）	`paddle/fluid/framework/scope.cc`
GC 实现	`paddle/fluid/framework/new_executor/garbage_collector/`