dcgm_exporter

NVIDIA Data Center GPU Manager (DCGM) Exporter para recopilar metricas detalladas de GPU de los nodos de inferencia del pipeline KYC. Monitorea utilizacion de GPU, memoria VRAM, temperatura, consumo energetico y errores ECC en las tarjetas que ejecutan los modelos de reconocimiento facial (ArcFace/InsightFace), deteccion de vida y analisis antifraude.

When to use

Usa esta skill cuando necesites monitorear el estado y rendimiento de las GPUs que ejecutan inferencia ML en el pipeline de verificacion KYC. Pertenece al observability_agent y se aplica cuando hay que diagnosticar cuellos de botella en GPU, planificar escalado de nodos de inferencia o detectar degradacion de hardware en las tarjetas graficas.

Instructions

Desplegar DCGM Exporter como DaemonSet en los nodos con GPU del cluster:

# k8s/dcgm-exporter-daemonset.yml
apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: dcgm-exporter
  namespace: monitoring
spec:
  selector:
    matchLabels:
      app: dcgm-exporter
  template:
    metadata:
      labels:
        app: dcgm-exporter
    spec:
      nodeSelector:
        nvidia.com/gpu.present: "true"
      containers:
        - name: dcgm-exporter
          image: nvcr.io/nvidia/k8s/dcgm-exporter:3.3.8-3.6.0-ubuntu22.04
          ports:
            - containerPort: 9400
              name: metrics
          securityContext:
            runAsNonRoot: false
            capabilities:
              add: ["SYS_ADMIN"]
          volumeMounts:
            - name: dcgm-counters
              mountPath: /etc/dcgm-exporter/customized.csv
              subPath: customized.csv
      volumes:
        - name: dcgm-counters
          configMap:
            name: dcgm-custom-counters

dcgm_exporter

When to use

Instructions

Desplegar DCGM Exporter como DaemonSet en los nodos con GPU del cluster:

# k8s/dcgm-exporter-daemonset.yml
apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: dcgm-exporter
  namespace: monitoring
spec:
  selector:
    matchLabels:
      app: dcgm-exporter
  template:
    metadata:
      labels:
        app: dcgm-exporter
    spec:
      nodeSelector:
        nvidia.com/gpu.present: "true"
      containers:
        - name: dcgm-exporter
          image: nvcr.io/nvidia/k8s/dcgm-exporter:3.3.8-3.6.0-ubuntu22.04
          ports:
            - containerPort: 9400
              name: metrics
          securityContext:
            runAsNonRoot: false
            capabilities:
              add: ["SYS_ADMIN"]
          volumeMounts:
            - name: dcgm-counters
              mountPath: /etc/dcgm-exporter/customized.csv
              subPath: customized.csv
      volumes:
        - name: dcgm-counters
          configMap:
            name: dcgm-custom-counters

Dcgm Exporter

dcgm_exporter

When to use

Instructions

Dcgm Exporter

dcgm_exporter

When to use

Instructions

Notes

Continuous Learning V2

Continuous Learning V2

Continuous Learning V2

Continuous Learning

Continuous Learning

Pytorch Patterns