MNN ARM CPU 性能优化 SKILL

触发条件：当用户请求优化某个算子/内核在 ARM CPU 上的性能时触发。常见表述包括："优化xxx的ARM性能"、"加速xxx算子"、"写xxx的NEON实现"、"用SME2实现xxx"等。

概述

本 SKILL 指导 AI Agent 对 MNN 的 ARM CPU 后端进行性能优化。遵循 "先正确，再加速" 原则，每次优化都要保证结果不变。

正确性第一：任何优化都必须通过正确性验证
有数据支撑：每次优化前后都要有实测性能数据对比
优先复用已有函数（最重要）：见下方详细说明
替换前验证语义：用 MNN 函数替换循环之前，必须确认函数的精确数学语义与原始代码一致（参数含义、归一化方式、边界行为等）。不要只看函数名就假设可以替换
考虑数据规模：函数调用和 Pack/Unpack 有固定开销。对小规模数据，朴素循环（编译器自动向量化）可能比调用 MNN 函数更快
渐进式优化：复用已有函数 → 多线程 → 数据排布 → 汇编（仅在必要时）

MNN 的 CoreFunctions 中已经包含了。这些函数已经针对不同指令集（NEON/FP16/SDOT/I8MM/SME2）编写了专门的汇编内核，性能远超任何 C++ 循环或 Vec4 包装。

触发条件：当用户请求优化某个算子/内核在 ARM CPU 上的性能时触发。常见表述包括："优化xxx的ARM性能"、"加速xxx算子"、"写xxx的NEON实现"、"用SME2实现xxx"等。

本 SKILL 指导 AI Agent 对 MNN 的 ARM CPU 后端进行性能优化。遵循 "先正确，再加速" 原则，每次优化都要保证结果不变。

正确性第一：任何优化都必须通过正确性验证
有数据支撑：每次优化前后都要有实测性能数据对比
优先复用已有函数（最重要）：见下方详细说明
替换前验证语义：用 MNN 函数替换循环之前，必须确认函数的精确数学语义与原始代码一致（参数含义、归一化方式、边界行为等）。不要只看函数名就假设可以替换
考虑数据规模：函数调用和 Pack/Unpack 有固定开销。对小规模数据，朴素循环（编译器自动向量化）可能比调用 MNN 函数更快
渐进式优化：复用已有函数 → 多线程 → 数据排布 → 汇编（仅在必要时）

MNN 的 CoreFunctions 中已经包含了。这些函数已经针对不同指令集（NEON/FP16/SDOT/I8MM/SME2）编写了专门的汇编内核，性能远超任何 C++ 循环或 Vec4 包装。

函数	作用	替代了什么
`gcore->MNNPackedMatMul`	矩阵乘 C = A × B（已有 NEON/FP16/SME2 汇编）	任何双重循环的矩阵乘
`gcore->MNNPackedMatMulRemain`	矩阵乘余数处理	MatMul 的尾部处理
`gcore->MNNComputeMatMulForE_1`	矩阵向量乘 y = A × x（E=1 时专用）	循环实现的 MatVec
`gcore->MNNComputeMatMulForH_1`	向量矩阵乘 y = x × B（H=1 时专用）	循环实现的 VecMat
`MNNScaleAndAddBiasScalar`	y = x * scale + bias	循环乘标量/加标量
`gcore->MNNScaleAndAddBias`	按通道 scale + bias	循环乘/加
`MNNExp`	批量 exp(x)	循环调用 expf()
`MNNSiLu` / `MNNSiLuLowp`	批量 SiLU 激活	循环 x*sigmoid(x)
`MNNSoftmax`	Softmax（含 Flash Attention 支持）	循环 exp + sum + div
`MNNNorm`	LayerNorm / RMSNorm	循环求范数
`gcore->MNNPackCUnit` / `MNNUnpackCUnit`	NC4HW4 Pack/Unpack	循环数据重排
`gcore->MNNPackC4ForMatMul_A`	MatMul 的 A 矩阵 Pack	循环重排 A
`gcore->MNNPackForMatMul_B`	MatMul 的 B 矩阵 Pack	循环重排 B
`gcore->MNNConvRunForLineDepthwise`	Depthwise 卷积	循环卷积
`MNNMatrixAdd` / `MNNMatrixSub`	矩阵加减	循环加减
`MNN_CONCURRENCY_BEGIN/END`	多线程并行	单线程循环

函数	in-place (dst==src)	说明
`MNNScaleAndAddBiasScalar`	✅ 安全	逐元素操作
`MNNSiLu` / `MNNSiLuLowp`	❌ 不安全	内部先写 dst 再读 src
`MNNExp`	❌ 不安全	同上
`MNNNorm`	✅ 安全	只读 src，只写 dst
`gcore->MNNComputeMatMulForE_1`	✅ 安全	输出独立于输入