Skill File

Sre Monitoring And Observability

Name: Sre Monitoring And Observability
Author: TheBushidoCollective

Use when building comprehensive monitoring and observability systems.

TheBushidoCollective137 starsFeb 12, 2026

Occupation
Categories: Astronomy & Physics

Skill Content

Building comprehensive monitoring and observability systems.

Four Golden Signals

Latency

Time to process requests:

# Request duration
http_request_duration_seconds

# Query
histogram_quantile(0.95, 
  rate(http_request_duration_seconds_bucket[5m])
)

Traffic

Demand on the system:

# Requests per second
rate(http_requests_total[5m])

# By endpoint
sum(rate(http_requests_total[5m])) by (endpoint)

Errors

Rate of failed requests:

# Error rate
rate(http_requests_total{status=~"5.."}[5m])
/ 
rate(http_requests_total[5m])

# SLI compliance
1 - (error_rate / slo_target)

Related Skills

Sre Monitoring And Observability | Skills Pool

# CPU usage
100 - (avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)

# Memory usage
(node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) 
/ node_memory_MemTotal_bytes * 100

# Successful requests / Total requests
sum(rate(http_requests_total{status=~"[23].."}[30d]))
/
sum(rate(http_requests_total[30d]))

# Requests faster than threshold / Total requests
sum(rate(http_request_duration_seconds_bucket{le="0.5"}[30d]))
/
sum(rate(http_request_duration_seconds_count[30d]))

# Requests processed within capacity
clamp_max(
  rate(http_requests_total[5m]) / capacity_requests_per_second,
  1.0
)

# High error rate

Sre Monitoring And Observability

Four Golden Signals

Latency

Traffic

Errors

Sre Monitoring And Observability

Four Golden Signals

Latency

Traffic

Errors

Saturation

Service Level Indicators (SLIs)

Availability SLI

Latency SLI

Throughput SLI

Alerting

Alert Severity Levels

Example Alerts

Database Migrations Migration Observability

Computer Vision Expert

Ai Studio Image

Astropy

Performance Engineer

Cosmosdb Datamodeling