Name: Observability
Author: TheBeardedBearSAS

Observability — OpenTelemetry & Distributed Tracing

Instrumentation moderne avec OpenTelemetry pour métriques, traces et logs structurés.

Piliers de l'Observabilité

Pilier	Technologies	Métriques clés
Metrics	Prometheus, Grafana, Datadog	RED (Rate, Errors, Duration), USE (Utilization, Saturation, Errors)
Traces	OpenTelemetry, Jaeger, Tempo	P95 latency, span duration, error rate
Logs	Loki, ElasticSearch, Datadog	Structured JSON, correlation IDs

OpenTelemetry (OTel) Stack

// Node.js — Auto-instrumentation
const { NodeSDK } = require('@opentelemetry/sdk-node');
const { getNodeAutoInstrumentations } = require('@opentelemetry/auto-instrumentations-node');

const sdk = new NodeSDK({
  traceExporter: new OTLPTraceExporter(),
  instrumentations: [getNodeAutoInstrumentations()],
});

sdk.start();

Observability — OpenTelemetry & Distributed Tracing

Instrumentation moderne avec OpenTelemetry pour métriques, traces et logs structurés.

Piliers de l'Observabilité

Pilier	Technologies	Métriques clés
Metrics	Prometheus, Grafana, Datadog	RED (Rate, Errors, Duration), USE (Utilization, Saturation, Errors)
Traces	OpenTelemetry, Jaeger, Tempo	P95 latency, span duration, error rate
Logs	Loki, ElasticSearch, Datadog	Structured JSON, correlation IDs

OpenTelemetry (OTel) Stack

// Node.js — Auto-instrumentation
const { NodeSDK } = require('@opentelemetry/sdk-node');
const { getNodeAutoInstrumentations } = require('@opentelemetry/auto-instrumentations-node');

const sdk = new NodeSDK({
  traceExporter: new OTLPTraceExporter(),
  instrumentations: [getNodeAutoInstrumentations()],
});

sdk.start();

Signal	Description	Seuil typique
Latency	P50, P95, P99 response time	P95 < 200ms
Traffic	Requests per second	Baseline + alerting
Errors	Error rate (5xx, exceptions)	< 0.1%
Saturation	CPU, Memory, Disk	< 80% sustained

Concept	Exemple
SLI (Indicator)	99.5% requests < 200ms
SLO (Objective)	99.9% uptime mensuel
SLA (Agreement)	99.95% uptime + pénalités

Observability

Observability — OpenTelemetry & Distributed Tracing

Piliers de l'Observabilité

OpenTelemetry (OTel) Stack

Observability

Observability — OpenTelemetry & Distributed Tracing

Piliers de l'Observabilité

OpenTelemetry (OTel) Stack

Golden Signals (Google SRE)

Structured Logging (JSON)

SLI / SLO / SLA

Bluebubbles

Add Tracing

Analytics Events

Add Expert

Arthas

Arthas Eagleeye Traceid