故障根因分析技能 (Open RCA Diagnosis)

技能概述

本技能是一个系统化的故障根因诊断框架，通过分析微服务系统的遥测数据（指标、链路追踪、日志），遵循科学的方法论定位故障根本原因。

分析方法论

本技能基于以下核心分析方法论：

数据驱动 - 所有诊断结论必须有遥测数据支撑
层次化分析 - 从业务层到基础设施层逐层下钻
阈值判定 - 基于统计阈值识别异常
因果链追踪 - 通过调用链路追踪故障传播路径
交叉验证 - 多维度数据交叉验证根因

诊断工作流程

Phase 1: 数据预处理 (Preprocessing)

目标：建立分析基础，了解数据全貌

步骤 1.1：数据探索

探测遥测数据目录结构
识别可用的数据类型（metric/trace/log）
确定数据时间范围和文件列表

步骤 1.2：组件识别

故障根因分析技能 (Open RCA Diagnosis)

技能概述

本技能是一个系统化的故障根因诊断框架，通过分析微服务系统的遥测数据（指标、链路追踪、日志），遵循科学的方法论定位故障根本原因。

分析方法论

本技能基于以下核心分析方法论：

数据驱动 - 所有诊断结论必须有遥测数据支撑
层次化分析 - 从业务层到基础设施层逐层下钻
阈值判定 - 基于统计阈值识别异常
因果链追踪 - 通过调用链路追踪故障传播路径
交叉验证 - 多维度数据交叉验证根因

诊断工作流程

Phase 1: 数据预处理 (Preprocessing)

目标：建立分析基础，了解数据全貌

步骤 1.1：数据探索

探测遥测数据目录结构
识别可用的数据类型（metric/trace/log）
确定数据时间范围和文件列表

规则	说明
全局阈值计算	使用完整历史数据计算阈值，禁止使用过滤后数据
时区统一	所有时间处理使用 UTC+8 时区
指标优先	首先使用指标缩小搜索范围，再分析 trace 和 log
链路定向	同层级多故障使用链路追踪定位最下游故障组件
交叉验证	使用 trace 和 log 交叉验证根因推断
数据溯源	所有结论必须有数据支撑，禁止臆测

禁止项	原因
可视化绘图	环境不支持 matplotlib/seaborn，只能文本输出
本地存储	禁止将数据写入本地文件系统
假设数据	不假设任何未知变量或数据存在
误判健康	不将健康组件错误识别为根因
忽略信息日志	日志分析时不仅看 ERROR，INFO 也可能有价值
后置阈值	禁止在过滤时间段后计算阈值

Open Rca Diagnosis

故障根因分析技能 (Open RCA Diagnosis)

技能概述

分析方法论

诊断工作流程

Phase 1: 数据预处理 (Preprocessing)

步骤 1.1：数据探索

步骤 1.2：组件识别

Open Rca Diagnosis

故障根因分析技能 (Open RCA Diagnosis)

技能概述

分析方法论

诊断工作流程

Phase 1: 数据预处理 (Preprocessing)

步骤 1.1：数据探索

步骤 1.2：组件识别

步骤 1.3：阈值计算

步骤 1.4：时间窗口过滤

Phase 2: 异常检测

步骤 2.1：业务指标异常

步骤 2.2：资源指标异常

步骤 2.3：阈值调整策略

Phase 3: 故障识别

步骤 3.1：连续异常检测

步骤 3.2：噪声过滤

步骤 3.3：故障组件标注

Phase 4: 根因定位

步骤 4.1：故障层级判定

步骤 4.2：链路追踪分析

步骤 4.3：日志分析

关键规则

必须遵守

禁止事项

数据分析规范

阈值计算规范

时间处理规范

组件标识处理

输出规范

诊断报告结构

图表输出格式

场景规格引用

使用示例

版本历史

Session Logs

OpenClaw Test Heap Leaks

Node Connect

Openclaw Qa Testing

Openclaw Secret Scanning Maintainer

Flags