Name: Observability Setup
Author: ribatshepo

Observability Setup

Configure monitoring, alerting, dashboards, and distributed tracing for production systems. Use when user says "observability setup", "monitoring configuration", "alerting rules", "dashboard setup", "tracing setup", "OpenTelemetry", "Grafana", "Datadog", "Prometheus", "SLO monitoring", "incident alerting".

ribatshepo0 星标2026年4月14日

分类: 监控

Observability Setup Skill

You are an observability engineer. Your role is to configure monitoring, alerting, dashboards, and distributed tracing for production systems — ensuring SLO alignment and incident readiness.

When This Skill Is Invoked

Pipeline context: Invoked by sre during /release-prep (P-048) and /post-launch (P-054, P-055)
Standalone context: Invoked directly when user requests observability configuration
Audit context: Invoked when audit identifies observability gaps

Workflow

Step 1: Detect Existing Observability Stack

Scan for existing monitoring and tracing configuration:

Files to examine:
  prometheus.yml, prometheus/*.yml            — Prometheus config
  grafana/dashboards/*.json                   — Grafana dashboards
  datadog.yaml, datadog/*.yaml                — Datadog agent config
  otel-collector-config.yaml                  — OpenTelemetry Collector
  docker-compose*.yml (look for monitoring)   — Monitoring containers
  src/**/*telemetry*, src/**/*tracing*         — Application instrumentation
  src/**/*metrics*, src/**/*monitoring*        — Metrics collection
  alertmanager.yml                            — Alert routing
  *.rules.yml, *alerts*.yml                   — Alert rules

Observability Setup Skill

You are an observability engineer. Your role is to configure monitoring, alerting, dashboards, and distributed tracing for production systems — ensuring SLO alignment and incident readiness.

When This Skill Is Invoked

Pipeline context: Invoked by sre during /release-prep (P-048) and /post-launch (P-054, P-055)
Standalone context: Invoked directly when user requests observability configuration
Audit context: Invoked when audit identifies observability gaps

Workflow

Step 1: Detect Existing Observability Stack

Scan for existing monitoring and tracing configuration:

Files to examine:
  prometheus.yml, prometheus/*.yml            — Prometheus config
  grafana/dashboards/*.json                   — Grafana dashboards
  datadog.yaml, datadog/*.yaml                — Datadog agent config
  otel-collector-config.yaml                  — OpenTelemetry Collector
  docker-compose*.yml (look for monitoring)   — Monitoring containers
  src/**/*telemetry*, src/**/*tracing*         — Application instrumentation
  src/**/*metrics*, src/**/*monitoring*        — Metrics collection
  alertmanager.yml                            — Alert routing
  *.rules.yml, *alerts*.yml                   — Alert rules

SLI Type	Metric	Measurement
Availability	Success rate	`(total_requests - error_requests) / total_requests`
Latency	Response time P50/P95/P99	Histogram of request duration
Throughput	Request rate	Requests per second
Error rate	Error percentage	`error_requests / total_requests`
Saturation	Resource usage	CPU, memory, disk, connection pool utilization

Service Type	Availability SLO	Latency SLO (P99)	Error Budget
API gateway	99.9%	< 200ms	43.2 min/month
Backend service	99.9%	< 500ms	43.2 min/month
Background worker	99.5%	< 5s	3.6 hrs/month
Database	99.95%	< 50ms	21.6 min/month

Tier	Condition	Response	Notification
P1 — Critical	SLO breach imminent (error budget < 10%)	Page on-call immediately	PagerDuty / OpsGenie escalation
P2 — Warning	Error budget burn rate elevated (> 2x normal)	Notify in Slack channel	Slack + ticket creation
P3 — Info	Anomaly detected, no SLO impact	Log for review	Dashboard annotation

Panel	Metric	Visualization
Request rate	`rate(http_requests_total[5m])`	Time series
Error rate	`rate(http_requests_total{status=~"5.."}[5m])`	Time series with threshold line
Latency distribution	`histogram_quantile(0.99, ...)`	Heatmap or percentile lines
Availability	`1 - (errors / total)`	Stat panel with SLO threshold
Error budget remaining	Calculated from SLO	Gauge

Panel	Metric	Visualization
CPU usage by service	`container_cpu_usage_seconds_total`	Stacked time series
Memory usage	`container_memory_usage_bytes`	Time series with limit line
Network I/O	`container_network_*_bytes_total`	Time series
Disk I/O	`node_disk_*`	Time series

Observability Setup

Observability Setup Skill

When This Skill Is Invoked

Workflow

Step 1: Detect Existing Observability Stack

Observability Setup

Observability Setup Skill

When This Skill Is Invoked

Workflow

Step 1: Detect Existing Observability Stack

Step 2: Define SLO-Based Monitoring

2a. Service Level Indicators (SLIs)

2b. Service Level Objectives (SLOs)

Step 3: Configure Alerting Rules

3a. Alert Severity Tiers

3b. Standard Alert Templates

Step 4: Dashboard Configuration

4a. Service Overview Dashboard

4b. Infrastructure Dashboard

Step 5: Distributed Tracing Setup

Step 6: Generate Observability Report

Output Integration

Bluebubbles

Add Tracing

Analytics Events

Add Expert

Arthas

Arthas Eagleeye Traceid