Name: Perf Optimization
Author: NVIDIA

搜索技能.../

Primary bottleneck: memory-bound
Evidence: Memory bandwidth at 89% of peak, compute at 35%
Recommendations:
1. [High] Enable FlashAttention for self-attention layers
2. [Medium] Apply memory pooling for attention buffers
3. [Low] Consider gradient checkpointing for memory reduction

# Before delegating to specialist
backup_file("train.py")

# Delegate implementation
Delegate to perf-torch-cuda-graph-specialist: "Apply CUDA Graph to train.py"

# Validate -- delegate benchmarking to the appropriate specialist
Delegate to perf-profiling-specialist: "Benchmark train.py and report latency"

# If regression detected:
revert_file("train.py")

Category	Specialist	Example Optimizations
cuda_graph	perf-torch-cuda-graph-specialist	Graph capture, cudaGraphLaunch
kernel	perf-profiling-specialist	FlashAttention, kernel fusion
triton	kernel-triton-specialist	Custom Triton kernels, operator fusion
tileir	kernel-triton-specialist then kernel-tileir-specialist	TileIR-optimized Triton kernels for Blackwell GPUs (two-step pipeline)
cute_dsl	kernel-cute-specialist	CuTe DSL kernels (GEMM, attention, element-wise, reduction)
distributed	distributed-specialist	Comm overlap, gradient bucketing
parallelism	distributed-specialist	TP, PP, FSDP configuration

Specialist	Technology	Use Case	Target Hardware
kernel-triton-specialist	Triton (PTX backend)	Write new Triton kernels from scratch	Ampere+ (SM80+)
kernel-tileir-specialist	Triton + TileIR backend	Optimize EXISTING Triton kernels for TileIR	Blackwell (SM100+)
kernel-cute-specialist	CuTe DSL	Write kernels from examples or patterns	SM80+ (GEMM: SM100+)

## Optimization Applied: <optimization_name>

### Prerequisites Checked
- [x] Code compatibility verified
- [x] Hardware requirements met

### Implementation
- Specialist: <specialist_name>
- Changes: <brief description>

### Validation
| Metric | Before | After | Change |
|--------|--------|-------|--------|
| Throughput | X samples/sec | Y samples/sec | +Z% |
| Latency | X ms | Y ms | -Z% |

### Result
SUCCESS: Achieved X% improvement

## Optimization Summary

**Goal**: <target metric and value>
**Starting Point**: <baseline metrics>
**Result**: <final metrics, goal achieved/not achieved>

### Optimizations Applied (in order)

1. **<Optimization 1>**
   - Impact: X ms --> Y ms (-Z%)
   - Status: Applied

2. **<Optimization 2>**
   - Impact: Y ms --> W ms (-Z%)
   - Status: Applied

3. **<Optimization 3>**
   - Impact: Regression detected
   - Status: Rolled back

### Cumulative Results
| Metric | Baseline | Final | Total Change |
|--------|----------|-------|--------------|
| Throughput | X | Y | +Z% |
| Latency | X ms | Y ms | -Z% |
| SOL% | X% | Y% | +Z points |

### Remaining Opportunities
- <optimization not yet tried>
- <reason for not applying>

Perf Optimization | Skills Pool

Perf Optimization

Perf Optimization

Performance Optimization Coordination

Specialists

Delegation Rules

Iterative Optimization Loops

Remote Execution

Terminology -- Do NOT Confuse

Operating Modes

User-Specified Optimization

Autopilot Mode (Goal-Driven)

Optimization Workflow

Planning Phase

Safe Modification Workflow

Prioritization Criteria

Safety Rules

Optimization Categories

Kernel Generation Specialists

Routing Based on User Intent

TileIR Two-Step Pipeline (Triton + TileIR Backend)

CuTe DSL Specialist

Triton Specialist (Triton / PTX Backend)

Optimization Principles

Output Format

For Single Optimization (User-Specified Mode)

For Multiple Optimizations (Autopilot Mode)

Pytorch Patterns

Regex Vs Llm Structured Text

Effect

Flags

WPF to WinUI 3 Migration Skill

At Dispatch V2