Audita salud operativa de servicios y reporta hallazgos como critical/warn/info. Usa este skill cuando el agente de operaciones necesite verificar estado de sistemas, detectar problemas, revisar servicios, o responder a “cómo están los servicios”, “algo está fallando”, “health check”, “status report”, “auditoría de sistemas”, o cualquier revisión de infraestructura y procesos operativos. También aplica para revisiones preventivas, post-incidente, o monitoreo periódico.
Ejecuta una auditoría operativa rápida y entrega un reporte clasificado por severidad con acciones concretas.
| Input | Fuente | Requerido |
|---|---|---|
| Lista de servicios/sistemas a auditar | Inventario de infraestructura, docker-compose, servicios cloud | ✅ Sí |
| Logs de errores recientes | Logs de aplicación, CI/CD, monitoring | ✅ Sí |
| Estado de tareas programadas | Cron jobs, schedulers, automations, pipelines | Recomendado |
| Últimas métricas de performance | Uptime, latencia, uso de recursos | Si disponible |
| Último health audit (si existe) | Reporte previo para comparar tendencias | Si disponible |
Lista cada servicio/componente con su estado observado:
| Servicio | Estado esperado | Estado actual | Última actividad |
|---|---|---|---|
| [nombre] | Running 24/7 | [observado] | [timestamp] |
Para cada servicio, verifica:
| Nivel | Criterio | Acción requerida | Ejemplo |
|---|---|---|---|
| 🔴 CRITICAL | Servicio caído, data loss, seguridad comprometida, revenue impactado | Acción inmediata (< 1 hora) | “API de pagos retorna 500 desde hace 2h” |
| 🟡 WARN | Degradación, errores intermitentes, recurso cerca de límite, task fallida | Investigar hoy | “Disco al 85%, crece 2%/día” |
| 🟢 INFO | Observación, mejora sugerida, mantenimiento preventivo | Planificar | “Dependencia X tiene major update disponible” |
Reglas de clasificación:
Solo para hallazgos CRITICAL y WARN, propón:
| Nivel | Cantidad |
|---|---|
| 🔴 CRITICAL | N |
| 🟡 WARN | N |
| 🟢 INFO | N |
Estado general: [🔴 Requiere atención inmediata / 🟡 Estable con alertas / 🟢 Saludable] Comparación vs último audit: [Mejoró / Igual / Empeoró] — [detalle breve si aplica]
[La acción más urgente que se puede ejecutar en < 5 minutos]