Name: Devops Alert Rca
Author: ChanghwanK

Devops Alert Rca

Slack 알럿 URL을 입력받아 단일 알럿 심층 RCA를 수행하는 스킬. 현상파악(Grafana MCP + VictoriaMetrics MCP) → RCA(kubectl) 2단계 구조. 알럿 카테고리(Pod, Node, Network, Scaling, Storage, DB)별 분기 플로우로 진행. 해결책 3가지 장/단점 + ROI 분석 후 최선안을 추천한다. 사용 시점: (1) 특정 알럿 근본 원인 파악, (2) 반복 발생 알럿 심층 분석, (3) 해결책 ROI 비교가 필요한 경우. 트리거 키워드: "알럿 분석", "alert rca", "이 알럿 분석해줘", "/devops:alert-rca".

ChanghwanK0 estrellas8 abr 2026

Ocupación
Categorías: Depuración

devops:alert-rca Skill

Slack 알럿 URL 하나를 입력받아, 카테고리별 분기 플로우로 현상파악(MCP) + RCA(kubectl)를 수행하고, 해결책 3가지를 ROI 분석과 함께 제안한다.

핵심 원칙

2단계 분리: 현상파악은 MCP(시계열 메트릭), RCA는 kubectl(K8s 리소스 상태). 둘을 섞지 않는다.
카테고리 우선 판별: 알럿 rule name + labels에서 카테고리(A~F)를 먼저 결정하고, 해당 플로우만 실행한다.
false positive 방지: RCA 전 claude-code/memory/known-issues.md를 참조하여 정상 이상현상인지 확인한다.
ROI 기반 추천: 해결책은 팀 원칙(생산성 > 비용 > 안정성)을 반영하여 최선안을 선택한다.
애매한 부분은 질문: 필수 정보(namespace, pod명 등)가 없으면 사용자에게 바로 묻는다.
메커니즘 우선 설명: 현상 나열에 그치지 않고, 해당 한도/제한이 왜 존재하는지(설계 의도), 어떤 순서로 실패가 발생했는지(failure chain), 무엇이 트리거였는지를 반드시 규명한다. "브리핑"이 아닌 "원리 이해"를 목표로 한다.

워크플로우

Step 1 — Slack URL 파싱 → 알럿 메시지 읽기

URL 형식:

Devops Alert Rca

ChanghwanK0 estrellas8 abr 2026

Ocupación
Categorías: Depuración

핵심 원칙

2단계 분리: 현상파악은 MCP(시계열 메트릭), RCA는 kubectl(K8s 리소스 상태). 둘을 섞지 않는다.

카테고리 우선 판별: 알럿 rule name + labels에서 카테고리(A~F)를 먼저 결정하고, 해당 플로우만 실행한다.

false positive 방지: RCA 전 claude-code/memory/known-issues.md를 참조하여 정상 이상현상인지 확인한다.

ROI 기반 추천: 해결책은 팀 원칙(생산성 > 비용 > 안정성)을 반영하여 최선안을 선택한다.

애매한 부분은 질문: 필수 정보(namespace, pod명 등)가 없으면 사용자에게 바로 묻는다.

메커니즘 우선 설명: 현상 나열에 그치지 않고, 해당 한도/제한이 왜 존재하는지(설계 의도), 어떤 순서로 실패가 발생했는지(failure chain), 무엇이 트리거였는지를 반드시 규명한다. "브리핑"이 아닌 "원리 이해"를 목표로 한다.

항목	추출 위치
rule name	알럿 제목
severity	CRITICAL / WARNING / INFO
cluster	라벨 또는 메시지 본문
namespace	라벨
service / pod	라벨
firing 시각	메시지 타임스탬프 (KST 변환)
Grafana source 링크	버튼 또는 링크

카테고리	트리거 패턴
A — Pod/Container	`KubePodCrashLooping`, `KubeContainerWaiting`, `KubePodNotReady`, `OOMKilled`, `HighRestartCount`
B — Node/인프라	`KubeNodeNotReady`, `NodeHighCPU`, `NodeHighMemory`, `NodeDiskPressure`, `KarpenterNode*`
C — 네트워크/Istio	`HighErrorRate`, `High5xxRate`, `HighLatency`, `IstioProxy*`, `ConnectionRefused`
D — 스케일링	`HPAMaxReplicas`, `KEDAScalerError`, `HighPodPending`, `ReplicaSetFailed`
E — 스토리지	`PVCPending`, `CephHealth*`, `DiskFull`, `PVCBoundFailed`
F — DB/CNPG	`CNPGCluster*`, `DBConnectionHigh`, `AuroraFailover`, `PostgresReplicationLag`
G — 옵저버빌리티	`VMAlert`, `VictoriaMetrics`, `LokiIngestion`, `HighCardinality`, `tsdb_`, `vm_*`

알럿 클러스터	--context
infra-k8s-prod	k8s-prod
infra-k8s-stg	k8s-stg
infra-k8s-dev	k8s-dev
infra-k8s-idc	k8s-idc
infra-k8s-global	k8s-global

Devops Alert Rca

devops:alert-rca Skill

핵심 원칙

워크플로우

Step 1 — Slack URL 파싱 → 알럿 메시지 읽기

Devops Alert Rca

devops:alert-rca Skill

핵심 원칙

워크플로우

Step 1 — Slack URL 파싱 → 알럿 메시지 읽기

Step 2 — 알럿 메타데이터 추출

Step 3 — Grafana 알럿 규칙 조회

Step 4 — 카테고리 판별

Step 5 — [Phase 1] 현상파악 (MCP)

카테고리 A — Pod/Container

카테고리 B — Node/인프라

카테고리 C — 네트워크/Istio

카테고리 D — 스케일링

카테고리 E — 스토리지

카테고리 F — DB/CNPG

Step 5.5 — 메커니즘 분석 (한도/트리거 규명)

카테고리 G — 옵저버빌리티 심층 쿼리

Step 6 — [Phase 2] RCA (kubectl)

카테고리 A — Pod/Container

카테고리 B — Node/인프라

카테고리 C — 네트워크/Istio

카테고리 D — 스케일링

카테고리 E — 스토리지

카테고리 F — DB/CNPG

Step 6.5 — [선택] 애플리케이션 로그 심층 분석

Step 7 — 결과 출력

결과 출력 형식

주의사항

Session Logs

OpenClaw Test Heap Leaks

Node Connect

Openclaw Qa Testing

Openclaw Secret Scanning Maintainer

Flags