VictoriaMetrics, Loki, Alloy, OpenTelemetry 등 모니터링/로깅 스택 운영 스킬. 메트릭 수집 파이프라인 이슈, 저장소 관리, 쿼리 성능, 알림 규칙 운영을 커버. 사용 시점: (1) VictoriaMetrics 메모리/디스크 이슈, (2) Loki 로그 수집 실패, (3) 메트릭 누락/지연, (4) 알림 규칙 관리 (VMRule/PrometheusRule), (5) Alloy/OTel 수집 파이프라인 이슈, (6) Grafana 대시보드 쿼리 최적화. 트리거 키워드: "VictoriaMetrics", "VM", "Loki", "로그 수집", "메트릭 누락", "알림 규칙", "VMRule", "Alloy", "OpenTelemetry", "observability", "Grafana 느림", "메트릭 안 나옴", "로그 안 보임".
VictoriaMetrics, Loki, Alloy 등 모니터링/로깅 스택 운영 진단 및 최적화.
kubernetes/claude-code/02-context/infra-guide.md → 환경별 정책, 모니터링 구성kubernetes/src/observability/ → 모니터링 컴포넌트 GitOps 소스| 컴포넌트 | 네임스페이스 | 역할 |
|---|---|---|
| VictoriaMetrics (vmcluster) | observability-victoriametrics | 메트릭 저장/쿼리 (prod) |
| VictoriaMetrics (vmsingle) | observability-victoriametrics | 메트릭 저장/쿼리 (dev/stg) |
| Loki | observability-loki | 로그 수집/저장/쿼리 |
| Alloy | observability-alloy | 메트릭/로그 수집 에이전트 |
| Grafana | observability-grafana | 시각화 |
| vmalertmanager |
| observability-victoriametrics |
| 알림 라우팅 |
| vmagent | observability-victoriametrics | 메트릭 scrape & remote write |
| 컴포넌트 | 비고 |
|---|---|
| VictoriaMetrics (vmsingle) | 4Gi RAM, 40Gi Ceph 스토리지 |
| Grafana Datasource UID | bemfeemok4ge8c |
# VM Pod 상태
kubectl --context <ctx> get pods -n observability-victoriametrics
# vmsingle/vmcluster 리소스 사용량
kubectl --context <ctx> top pod -n observability-victoriametrics
# TSDB 상태 (MCP 사용)
# mcp__victoriametrics-prod__tsdb_status
증상: vmsingle/vmselect OOMKilled, 쿼리 느림
진단:
# VM 메모리 사용량
process_resident_memory_bytes{job=~".*victoriametrics.*"}
# 활성 쿼리 확인 (MCP)
# mcp__victoriametrics-prod__active_queries
주요 원인:
해결:
search.maxUniqueTimeseries 제한 조정# VM 디스크 사용량
vm_data_size_bytes
# 저장된 시계열 수
vm_rows_total
상세: references/vm-operations.md 참조
진단:
# Loki Pod 상태
kubectl --context <ctx> get pods -n observability-loki
# Alloy (로그 수집 에이전트) 상태
kubectl --context <ctx> get pods -n observability-alloy
# 특정 Pod 로그가 수집되는지 확인 (Grafana MCP)
# mcp__grafana__query_loki_logs 사용
주요 원인:
{namespace="tech-ai-gateway"} → |= "error" 순서|= (contains) 선호상세: references/loki-operations.md 참조
# src/observability/victoriametrics/infra-k8s-{env}/resources/vmrule.*.yaml
apiVersion: operator.victoriametrics.com/v1beta1