Name: Npu Basic Migrate
Author: holyorevil

Npu Basic Migrate

通用昇腾 NPU 模型迁移 Skill。适用于将基于 PyTorch / TensorFlow / vLLM 等框架的 CUDA 项目迁移到华为昇腾 NPU（Ascend910 系列）。涵盖环境检查、代码分析、自动迁移、手动适配、分布式改造、CUDA 算子处理、第三方库替换、验证及 Skill 生成全流程。当用户提到昇腾迁移、NPU适配、昇腾适配、CUDA转NPU、模型移植到华为NPU 时触发。

holyorevil0 スター2026/04/10

職業
カテゴリ: 機械学習

通用昇腾 NPU 模型迁移 Skill

本 Skill 提供一套通用的、从 CUDA 迁移到昇腾 NPU 的标准化流程，适用于 PyTorch、TensorFlow、vLLM 等主流框架的模型项目。迁移完成后，应根据实际跑通步骤生成该模型专属的迁移 Skill，以便复用。

前置条件

执行迁移前确认以下环境就绪：

项目	要求
硬件	Ascend910 系列（至少 1 卡）
OS	openEuler / Ubuntu / KylinOS（aarch64 或 x86_64）
CANN	≥ 8.0（推荐 8.2+ 或 8.3.RC1）
Python	3.8 – 3.10（推荐 3.10）
PyTorch	与 CANN 版本匹配（参考华为版本配套表）
torch_npu	与 PyTorch 版本一致

迁移流程总览

0. 常用技巧与环境初始化（高优先级）
→ 1. 环境检查与代码分析
→ 2. 自动迁移注入
→ 3. 手动修改 CUDA 依赖
→ 4. 分布式适配
→ 5. 非 torch 框架兼容（如有）
→ 6. CUDA 内核算子 .cu 文件处理
→ 7. 第三方依赖库适配
→ 8. 适配验证
→ 9. 生成模型专属迁移 Skill

通用昇腾 NPU 模型迁移 Skill

前置条件

执行迁移前确认以下环境就绪：

项目	要求
硬件	Ascend910 系列（至少 1 卡）
OS	openEuler / Ubuntu / KylinOS（aarch64 或 x86_64）
CANN	≥ 8.0（推荐 8.2+ 或 8.3.RC1）
Python	3.8 – 3.10（推荐 3.10）
PyTorch	与 CANN 版本匹配（参考华为版本配套表）
torch_npu	与 PyTorch 版本一致

迁移流程总览

0. 常用技巧与环境初始化（高优先级）
→ 1. 环境检查与代码分析
→ 2. 自动迁移注入
→ 3. 手动修改 CUDA 依赖
→ 4. 分布式适配
→ 5. 非 torch 框架兼容（如有）
→ 6. CUDA 内核算子 .cu 文件处理
→ 7. 第三方依赖库适配
→ 8. 适配验证
→ 9. 生成模型专属迁移 Skill

框架	迁移方式
PyTorch	`torch_npu` + `transfer_to_npu`（自动迁移优先）
TensorFlow	`npu_device` 插件或 `npu_bridge`
vLLM	需确认昇腾版 vLLM 支持情况，替换 backend
JAX	当前昇腾不直接支持，需改写为 PyTorch 或评估可行性
PaddlePaddle	昇腾原生支持，使用 `paddle_npu` 插件

CUDA 特有包	昇腾替代方案
`flash_attn`	`torch_npu.npu_fusion_attention`
`jax[cuda]`	暂不支持，需框架替换
`xformers`	部分算子可用 `torch_npu` 原生注意力替代
`apex`	`torch_npu` 内置 AMP 支持，或用 PyTorch 原生 AMP
`triton`	昇腾当前不支持 Triton，需改写为标准 PyTorch 算子或 AscendC
`bitsandbytes`	昇腾暂无等价实现，需禁用量化或换用昇腾量化工具
`deepspeed`	需使用昇腾适配版 DeepSpeed
`cupy`	需替换为 numpy/scipy 或 AscendCL API

原始 CUDA API	自动映射目标
`torch.cuda.is_available()`	返回 True（NPU 可用时）
`torch.Tensor.cuda()` / `nn.Module.cuda()`	`.npu()`
`torch.device('cuda')`	`torch.device('npu')`
DDP backend `nccl`	`hccl`
`torch.cuda.*` 系列 API	`torch.npu.*`

复杂度	判断标准	处理方式
低	简单逐元素运算、reduction	改写为 PyTorch 原生算子或 AscendC
中	涉及 shared memory、warp 操作	评估 AscendC 改写成本，或 fallback CPU
高	深度依赖 CUDA 生态（cuBLAS 等）	优先 fallback CPU，必要时用 AscendCL

问题	原因	解决方案
`No module named 'decorator'`	torch_npu 运行时依赖缺失	`pip install decorator`
`SetPrecisionMode ... error code 500001`	CANN 环境未加载	`source set_env.sh`
`ModuleNotFoundError: xxx`	缺少 `__init__.py`	在对应目录添加空 `__init__.py`
`torch_scatter` 编译失败	缺少编译工具	`pip install setuptools wheel`
double 精度警告	Ascend910 不支持 fp64	无需处理，自动降级为 fp32
多卡训练 hang	HCCL 通信问题	检查 `ASCEND_RT_VISIBLE_DEVICES` 和网络配置
`RuntimeError: ... FORCE_CUDA`	试图编译 CUDA 扩展	设置 `export FORCE_CUDA=0`
OOM（内存不足）	NPU 显存管理不同	减小 batch_size 或启用梯度检查点
算子不支持报错 `not supported on NPUAscend`	特定算子未适配	使用 CPU fallback 或寻找等价算子
`HCCL ... timeout`	多卡通信超时	增大 `HCCL_CONNECT_TIMEOUT`，检查卡间通信
性能远低于预期	算子频繁 fallback CPU	用 `torch_npu.profiler` 定位热点，优化算子

Npu Basic Migrate

通用昇腾 NPU 模型迁移 Skill

前置条件

迁移流程总览

Npu Basic Migrate

通用昇腾 NPU 模型迁移 Skill

前置条件

迁移流程总览

0. 常用技巧与环境初始化（在所有步骤前高优先级执行）

0.1 设备与 CANN 环境

0.2 torch_npu 基础校验

0.3 依赖与镜像源

0.4 文本换行与仓库清理

0.5 日志与调试环境变量

1. 环境检查与代码分析

1.1 框架识别

1.2 CUDA 依赖分析

1.3 依赖包分析

1.4 分布式分析

1.5 生成分析报告

2. 自动迁移注入（优先执行）

注入位置选择

3. 手动修改 CUDA 依赖

3.1 torch.cuda.get_device_properties(...).major

3.2 torch.cuda.get_device_capability()

3.3 torch.cuda.amp / autocast

3.4 torch.cuda.mem_get_info()

4. 分布式适配

4.1 DP → DDP 改造

4.2 Backend 替换

4.3 分布式启动命令

5. 非 torch 框架兼容

5.1 TensorFlow 项目

5.2 vLLM 项目

5.3 混合框架项目

6. CUDA 内核算子 .cu 文件处理

6.1 评估策略

6.2 CPU Fallback 模式

6.3 禁用编译型扩展

7. 第三方依赖库适配

7.1 Flash Attention

7.2 PyG 扩展库（torch_scatter / torch_sparse / torch_cluster）

8. 适配验证

8.1 验证策略

8.2 通用验证步骤

8.3 验证通过标准

8.4 精度注意事项

9. 生成模型专属迁移 Skill

迁移检查清单

常见问题

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns

3.1 `torch.cuda.get_device_properties(...).major`

3.2 `torch.cuda.get_device_capability()`

3.3 `torch.cuda.amp` / `autocast`

3.4 `torch.cuda.mem_get_info()`