专为筛选大模型基础设施(LLM Infra)工程师简历设计。当用户需要评估国产算力方向的大模型训练/推理 Infra 候选人时使用此 skill。重点评估候选人在国产算力算子开发、分布式并行训练、RL 工程落地及性能分析等方向的经验,生成包含多维度评分、评分理由和潜在疑点的结构化评估报告。适用场景:用户上传简历文件(PDF/Word/文本)并要求筛选或评估大模型 Infra 候选人。
按以下步骤依次执行,不得跳过:
shell 工具执行 pdftotext <path> - 提取文本;若 pdftotext 输出质量差(如乱码、内容缺失),则改用 file 工具的 view 功能进行多模态识别。将提取的内容整理为结构化文本后再进行后续分析。本 skill 针对以下类型的大模型 Infra 工程师岗位设计:
原始 JD 文件:llm_infra_engineer_jd.md
核心门槛:候选人必须具备昇腾(Ascend)、沐曦、摩尔线程等国产算力的实际开发经验。不具备此经验的候选人,无论其他维度多强,均应在综合评价中明确标注为"不满足硬性要求"。
共五个维度,每个维度独立打分(1–5 分),最终按权重计算综合得分(满分 100 分)。
考察候选人在国产 AI 芯片(昇腾/沐曦/摩尔线程等)上的算子开发与优化经验,这是本岗位的硬性门槛。
| 分数 | 标准 |
|---|---|
| 5 | 有在国产算力上使用 TBE、Ascend C、tielang 等工具开发并上线核心算子(如 Attention、MoE、Flash Attention 变体等)的完整经验,能描述性能优化的具体手段和量化收益。 |
| 4 | 有在国产算力上开发算子的实际经验,能独立完成算子适配与调优,但涉及的算子类型或优化深度相对有限。 |
| 3 | 有在国产算力上使用相关工具的经验,但主要以适配已有算子为主,未涉及从零开发或深度性能优化。 |
| 2 | 有 CUDA 算子开发经验,但国产算力经验仅停留在环境搭建或简单调用层面,未涉及算子开发。 |
| 1 | 无国产算力实际开发经验,或简历中完全未提及相关内容。 |
注意:维度一得分为 1 分时,必须在"潜在疑点"和"综合评价"中明确标注候选人不满足岗位硬性要求。
考察候选人在大规模分布式训练框架(Megatron-LM、DeepSpeed 等)及国产通信库(HCCL、HCCS)上的实践经验,以及对并行策略(数据/张量/流水线/专家并行)的掌握深度。
| 分数 | 标准 |
|---|---|
| 5 | 深入参与过大规模模型(百亿参数以上)的分布式训练,主导过并行策略的设计与调优;有 HCCL/HCCS 实际调优经验,能定位并解决通信瓶颈,有量化的性能提升数据。 |
| 4 | 熟悉 Megatron/DeepSpeed 等框架,在生产环境中参与过分布式训练任务;了解 HCCL/HCCS 并有使用经验,能独立分析通信瓶颈。 |
| 3 | 了解分布式训练的基本原理和常见并行策略,有过使用 Megatron/DeepSpeed 的经历,但未涉及深度调优或大规模场景。 |
| 2 | 对分布式训练有概念性了解,有过单机多卡训练经验,但未涉及多机多卡或通信优化。 |
| 1 | 无分布式训练实际经验。 |
考察候选人使用性能分析工具(msprof、nsight、vtune 等)定位性能瓶颈、优化计算与通信重叠、诊断集群故障的能力。
| 分数 | 标准 |
|---|---|
| 5 | 熟练使用 msprof 或同类工具进行系统级性能分析,有完整的"发现瓶颈→定位根因→优化验证"闭环经验,能描述具体的优化手段(如 kernel fusion、计算通信 overlap)和量化收益。 |
| 4 | 能使用性能分析工具定位常见瓶颈,有实际优化经验,但优化深度或系统性不足。 |
| 3 | 了解性能分析工具的基本使用方法,有过简单的性能调优经历。 |
| 2 | 对性能分析有概念性了解,但无实际工具使用经验。 |
| 1 | 简历中未体现性能分析与故障诊断相关经验。 |
考察候选人的 C++/Python 工程基础、计算机体系结构知识,以及从 0 到 1 构建或改造复杂系统的能力。
| 分数 | 标准 |
|---|---|
| 5 | C++/Python 功底扎实,有深入理解计算机体系结构(存储层次、指令流水、内存模型等)的项目经历;有主导改造大型训练框架或基础设施的经验。 |
| 4 | C++/Python 基础良好,有在复杂系统中进行模块级开发或改造的经验,对体系结构有一定理解。 |
| 3 | 有 C++/Python 开发经验,能完成功能模块的开发,但缺乏系统级设计或体系结构深度。 |
| 2 | 以 Python 为主,C++ 经验有限,缺乏底层系统开发经验。 |
| 1 | 工程基础薄弱,缺乏 C++/Python 实际项目经验。 |
考察候选人是否具备 JD 中提及的加分项:强化学习工程落地经验、主流框架(vllm/sglang/megatron/verl/slime 等)贡献者身份,或百亿以上参数模型的实际训练经验。
| 分数 | 标准 |
|---|---|
| 5 | 具备两项及以上加分项,且均有实际落地或贡献记录(如可查的 PR/commit 记录、具体模型规模数据)。 |
| 4 | 具备一项加分项,且有明确的实际落地或贡献记录。 |
| 3 | 具备一项加分项,但证据不够充分(如仅提及框架名称,无具体贡献细节)。 |
| 2 | 与加分项方向有一定关联,但未直接涉及(如有小规模 RL 实验经验,但未工程化落地)。 |
| 1 | 不具备任何加分项相关经验。 |
综合得分 = (D1×35 + D2×30 + D3×15 + D4×10 + D5×10) / 5
其中 D1–D5 分别为五个维度的得分(1–5 分),最终结果为满分 100 分的综合得分。
在评分完成后,必须对简历进行以下专项检查。若发现疑点,在报告中逐条列出;若无疑点,明确写出"未发现明显疑点"。
最终报告必须严格遵循以下 Markdown 格式输出:
## 简历评估报告:[候选人姓名]
> **岗位**:大模型 Infra 工程师(国产算力方向)
> **综合得分:[X.X] / 100**
---
### 维度评分详情
| 维度 | 权重 | 得分(1-5) | 加权分 | 评分理由 |
| :--- | :--- | :---: | :---: | :--- |
| 国产算力算子开发 | 35% | [分数] | [加权分] | [基于简历原文的具体依据] |
| 分布式并行训练与通信优化 | 30% | [分数] | [加权分] | [基于简历原文的具体依据] |
| 性能分析与故障诊断 | 15% | [分数] | [加权分] | [基于简历原文的具体依据] |
| 工程基础与系统能力 | 10% | [分数] | [加权分] | [基于简历原文的具体依据] |
| 加分项 | 10% | [分数] | [加权分] | [基于简历原文的具体依据] |
| **综合得分** | 100% | — | **[总分]** | — |
---
### 潜在疑点
- **[疑点类型]**:[具体描述,引用简历中的原始信息]
- 若无疑点:未发现明显疑点。
---
### 综合评价
[2–3 段文字,概述候选人的核心优势、明显短板,以及是否建议进入下一轮面试,并给出理由。若候选人不满足国产算力硬性门槛,必须在此处明确说明。]