Name: Observability Engineer
Author: MDLDev-site

Observability Engineer | Skills Pool

{
  "timestamp": "2025-01-15T10:30:00Z",
  "level": "ERROR",
  "service": "api-gateway",
  "trace_id": "abc123",
  "user_id": "user_456",
  "message": "Failed to authenticate user",
  "error": "InvalidTokenError",
  "duration_ms": 250
}

# logging_config.py
import logging
import json
from contextvars import ContextVar

# Context variables for request-scoped data
trace_id_var = ContextVar('trace_id', default=None)
user_id_var = ContextVar('user_id', default=None)

class StructuredFormatter(logging.Formatter):
    def format(self, record):
        log_data = {
            "timestamp": self.formatTime(record),
            "level": record.levelname,
            "service": "api-gateway",
            "trace_id": trace_id_var.get(),
            "user_id": user_id_var.get(),
            "message": record.getMessage(),
        }

        if record.exc_info:
            log_data["error"] = self.formatException(record.exc_info)

        # Add custom fields
        if hasattr(record, 'duration_ms'):
            log_data["duration_ms"] = record.duration_ms
        if hasattr(record, 'endpoint'):
            log_data["endpoint"] = record.endpoint

        return json.dumps(log_data)

# Usage
logger = logging.getLogger(__name__)
handler = logging.StreamHandler()
handler.setFormatter(StructuredFormatter())
logger.addHandler(handler)

# In request handler
trace_id_var.set("abc123")
user_id_var.set("user_456")
logger.error("Failed to authenticate user", extra={"duration_ms": 250, "endpoint": "/login"})

http_requests_total{service="api", endpoint="/users", status="200"} 1543
http_request_duration_seconds{service="api", endpoint="/users", quantile="0.95"} 0.250

# metrics.py
from prometheus_client import Counter, Histogram, Gauge
import time

# RED metrics
http_requests_total = Counter(
    'http_requests_total',
    'Total HTTP requests',
    ['service', 'endpoint', 'method', 'status']
)

http_request_duration_seconds = Histogram(
    'http_request_duration_seconds',
    'HTTP request latency',
    ['service', 'endpoint', 'method'],
    buckets=[0.01, 0.05, 0.1, 0.5, 1.0, 2.0, 5.0]
)

# USE metrics (resources)
cpu_usage_percent = Gauge('cpu_usage_percent', 'CPU usage percentage')
memory_usage_bytes = Gauge('memory_usage_bytes', 'Memory usage in bytes')
queue_depth = Gauge('queue_depth', 'Current queue depth', ['queue_name'])

# Usage in API handler
@app.route('/users')
def get_users():
    start_time = time.time()

    try:
        users = fetch_users_from_db()
        status = 200
        return users, status
    except Exception as e:
        status = 500
        raise
    finally:
        # Record metrics
        duration = time.time() - start_time
        http_requests_total.labels(
            service='api',
            endpoint='/users',
            method='GET',
            status=str(status)
        ).inc()

        http_request_duration_seconds.labels(
            service='api',
            endpoint='/users',
            method='GET'
        ).observe(duration)

Frontend → API Gateway → User Service → Database
  |            |              |             |
 10ms        50ms          100ms         40ms
                                   (bottleneck!)

# tracing.py
from opentelemetry import trace
from opentelemetry.exporter.jaeger import JaegerExporter
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor
from opentelemetry.instrumentation.requests import RequestsInstrumentor

# Setup
trace.set_tracer_provider(TracerProvider())
jaeger_exporter = JaegerExporter(
    agent_host_name="localhost",
    agent_port=6831,
)
trace.get_tracer_provider().add_span_processor(
    BatchSpanProcessor(jaeger_exporter)
)

# Auto-instrument HTTP requests
RequestsInstrumentor().instrument()

tracer = trace.get_tracer(__name__)

# Manual instrumentation
@app.route('/checkout')
def checkout():
    with tracer.start_as_current_span("checkout") as span:
        span.set_attribute("user_id", user_id)
        span.set_attribute("cart_value", 99.99)

        # Nested span
        with tracer.start_as_current_span("validate_payment"):
            validate_payment_method()

        with tracer.start_as_current_span("charge_customer"):
            result = charge_customer()

        return result

Request → Service A (trace_id: abc123)
            ↓
        Service B (trace_id: abc123)
            ↓
        Service C (trace_id: abc123)

# middleware.py
import uuid
from flask import request, g

@app.before_request
def add_trace_id():
    # Get trace_id from header or generate new one
    trace_id = request.headers.get('X-Trace-ID') or str(uuid.uuid4())
    g.trace_id = trace_id
    trace_id_var.set(trace_id)  # For logging

@app.after_request
def add_trace_id_to_response(response):
    response.headers['X-Trace-ID'] = g.trace_id
    return response

# When calling other services
def call_user_service(user_id):
    headers = {'X-Trace-ID': g.trace_id}
    response = requests.get(f'http://user-service/users/{user_id}', headers=headers)
    return response.json()

logger.error("User auth failed")

logger.error("User auth failed", extra={
    "user_id": user_id,
    "trace_id": trace_id,
    "ip_address": request.ip,
    "error_code": "INVALID_TOKEN"
})

# slo.yaml
apiVersion: monitoring.coreos.com/v1

Observability Engineer

The Observability Engineer

0. Core Principles (The Three Pillars)

Observability Engineer

The Observability Engineer

0. Core Principles (The Three Pillars)

1. Personality & Tone

1.1 Before vs. After

2. The Three Pillars

2.1 Logs

2.2 Metrics

2.3 Traces

3. Observability Patterns

3.1 Correlation IDs

3.2 Contextual Logging

3.3 SLOs & Error Budgets

Automation Audit Ops

Github Qa Labels

Jupyter Notebook

Tidb Integrationtest Recorder

Quality Nonconformance

Hugging Face Trackio