专为筛选强化学习(RL)工程师简历设计。当用户需要根据强化学习相关岗位描述(JD)评估候选人简历时使用此 skill。重点评估候选人在分布式系统、安全沙箱/容器、强化学习框架等方向的经验,生成包含多维度评分、评分理由和潜在疑点的结构化评估报告。适用场景:用户上传简历文件(PDF/Word/文本)并要求筛选或评估候选人。
按以下步骤依次执行,不得跳过:
本 skill 针对以下类型的强化学习工程师岗位设计:
原始 JD 文件:origin_jd.md
共五个维度,每个维度独立打分(1–5 分),最终按权重计算综合得分(满分 100 分)。
考察候选人从 0 到 1 构建复杂系统的工程经验、逻辑分析能力和算法基础。
| 分数 | 标准 |
|---|---|
| 5 | 简历中有明确的、主导完成的复杂系统从零构建经历,描述清晰,有可量化的规模或成果(如 QPS、延迟、规模等)。 |
| 4 | 有复杂系统的核心模块设计与开发经历,主导或深度参与,但量化成果不够充分。 |
| 3 | 有较复杂系统的开发经历,但以执行为主,非主要设计者,或项目规模有限。 |
| 2 | 参与过系统开发,但主要承担功能模块或维护工作,缺乏系统性设计经验。 |
| 1 | 仅有基础的编码经历,无复杂系统构建经验。 |
考察候选人在分布式系统原理、Kubernetes 架构及其生态的掌握程度与实践经验。
| 分数 | 标准 |
|---|---|
| 5 | 深入参与过大规模分布式系统(如千节点以上集群)的设计、开发和维护;精通 K8s 架构,有自定义 Operator、调度器或网络插件等深度实践。 |
| 4 | 在生产环境中使用 K8s 管理过中等规模服务,熟悉常见分布式系统问题(一致性、容错、服务发现等)并有实际解决经验。 |
| 3 | 有 K8s 使用经验,能独立部署和运维服务,了解分布式系统基本原理,但未涉及深度定制或大规模场景。 |
| 2 | 了解 K8s 基本概念,有有限的使用经验,分布式系统知识停留在理论层面。 |
| 1 | 对 K8s 和分布式系统仅有概念性了解,无实际经验。 |
考察候选人对安全容器(gVisor、Kata Containers、Firecracker 等)及多租户隔离环境的理解深度与落地经验。
| 分数 | 标准 |
|---|---|
| 5 | 有安全沙箱或多租户隔离环境的完整架构设计与生产落地经验,深入理解至少一种安全容器技术的内核原理(如 gVisor 的系统调用拦截机制)。 |
| 4 | 深入理解安全容器技术原理,有实际部署和调优经验,但非完整架构设计者。 |
| 3 | 了解安全容器的基本原理和使用方法,有过评估或试验性使用经历。 |
| 2 | 对安全容器有概念性了解,知道 gVisor/Kata 等技术的存在和用途,但无实际使用经验。 |
| 1 | 对安全容器和沙箱隔离技术不了解或未提及。 |
考察候选人对主流强化学习训练框架(verl、slime、Areal 等)的掌握程度、实际应用经验,以及是否具备分布式强化学习训练的工程经验。分布式 RL 训练经验(如多机多卡训练、异步 rollout、reward 分布式评估等)视为重要加分点。
| 分数 | 标准 |
|---|---|
| 5 | 熟练掌握至少一种指定框架,有在生产级项目中应用的经验;同时具备分布式强化学习训练的完整工程经验(如多机多卡训练、异步 rollout pipeline、分布式 reward 评估系统等)。 |
| 4 | 熟悉至少一种指定框架并有实际项目应用经验;或虽无分布式 RL 训练经验,但在框架使用上有深度实践(能描述具体场景和解决的工程问题)。 |
| 3 | 了解强化学习训练框架的基本原理,有过学习或实验性使用经历,但未在正式项目中大规模应用;对分布式训练有概念性了解。 |
| 2 | 对强化学习有一定了解,但未接触过指定框架,或仅停留在理论学习阶段;无分布式 RL 训练经验。 |
| 1 | 简历中未体现强化学习相关经验。 |
考察候选人是否具备 JD 中提及的加分项经验:openclaw、claudecode、opencode 等工程实践,或安全容器、虚拟机、浏览器沙箱等方向的专项经验。
| 分数 | 标准 |
|---|---|
| 5 | 具备多项加分项,且有明确的实际落地经验。 |
| 4 | 具备一项加分项,且有实际落地经验。 |
| 3 | 具备一项加分项,但仅有理论了解或试验性使用经历。 |
| 2 | 与加分项方向有一定关联,但未直接涉及。 |
| 1 | 不具备任何加分项相关经验。 |
综合得分 = (D1×30 + D2×25 + D3×10 + D4×25 + D5×10) / 5
其中 D1–D5 分别为五个维度的得分(1–5 分),最终结果为满分 100 分的综合得分。
在评分完成后,必须对简历进行以下专项检查。若发现疑点,在报告中逐条列出;若无疑点,明确写出"未发现明显疑点"。
最终报告必须严格遵循以下 Markdown 格式输出:
## 简历评估报告:[候选人姓名]
> **岗位**:强化学习工程师(Agentic RL 方向)
> **综合得分:[X.X] / 100**
---
### 维度评分详情
| 维度 | 权重 | 得分(1-5) | 加权分 | 评分理由 |
| :--- | :--- | :---: | :---: | :--- |
| 工程与系统构建 | 30% | [分数] | [加权分] | [基于简历原文的具体依据] |
| 分布式系统与 K8s | 25% | [分数] | [加权分] | [基于简历原文的具体依据] |
| 安全容器与沙箱隔离 | 10% | [分数] | [加权分] | [基于简历原文的具体依据] |
| 强化学习框架与分布式训练 | 25% | [分数] | [加权分] | [基于简历原文的具体依据] |
| 加分项 | 10% | [分数] | [加权分] | [基于简历原文的具体依据] |
| **综合得分** | 100% | — | **[总分]** | — |
---
### 潜在疑点
- **[疑点类型]**:[具体描述,引用简历中的原始信息]
- 若无疑点:未发现明显疑点。
---
### 综合评价
[2–3 段文字,概述候选人的核心优势、明显短板,以及是否建议进入下一轮面试,并给出理由。]