Name: Kubernetes & OpenShift Cluster Management
Author: sundial-org

搵技能.../

Kubernetes & OpenShift Cluster Management | Skills Pool

Tool	Version	Purpose
ArgoCD	v2.13.x	GitOps deployments
Flux	v2.4.x	GitOps toolkit
Kustomize	v5.5.x	Manifest customization
Helm	v3.16.x	Package management
Velero	1.15.x	Backup/restore
Trivy	0.58.x	Security scanning
Kyverno	1.13.x	Policy engine

# View nodes
kubectl get nodes -o wide

# Drain node for maintenance
kubectl drain ${NODE} --ignore-daemonsets --delete-emptydir-data --grace-period=60

# Uncordon after maintenance
kubectl uncordon ${NODE}

# View node resources
kubectl top nodes

az aks get-upgrades -g ${RG} -n ${CLUSTER} -o table
az aks upgrade -g ${RG} -n ${CLUSTER} --kubernetes-version ${VERSION}

aws eks update-cluster-version --name ${CLUSTER} --kubernetes-version ${VERSION}

gcloud container clusters upgrade ${CLUSTER} --master --cluster-version ${VERSION}

oc adm upgrade --to=${VERSION}
oc get clusterversion

# Install Velero
velero install --provider ${PROVIDER} --bucket ${BUCKET} --secret-file ${CREDS}

# Create backup
velero backup create ${BACKUP_NAME} --include-namespaces ${NS}

# Restore
velero restore create --from-backup ${BACKUP_NAME}

bash scripts/cluster-health-check.sh

Status	Meaning	Action
`Pending`	Scheduling issue	Check resources, nodeSelector, tolerations
`CrashLoopBackOff`	Container crashing	Check logs: `kubectl logs ${POD} --previous`
`ImagePullBackOff`	Image unavailable	Verify image name, registry access
`OOMKilled`	Out of memory	Increase memory limits
`Evicted`	Node pressure	Check node resources

# Pod logs (current and previous)
kubectl logs ${POD} -c ${CONTAINER} --previous

# Multi-pod logs with stern
stern ${LABEL_SELECTOR} -n ${NS}

# Exec into pod
kubectl exec -it ${POD} -- /bin/sh

# Pod events
kubectl describe pod ${POD} | grep -A 20 Events

# Cluster events (sorted by time)
kubectl get events -A --sort-by='.lastTimestamp' | tail -50

# Test DNS
kubectl run -it --rm debug --image=busybox -- nslookup kubernetes.default

# Test service connectivity
kubectl run -it --rm debug --image=curlimages/curl -- curl -v http://${SVC}.${NS}:${PORT}

# Check endpoints
kubectl get endpoints ${SVC}

apiVersion: apps/v1

Platform	Version	Documentation
Kubernetes	1.31.x	https://kubernetes.io/docs/
OpenShift	4.17.x	https://docs.openshift.com/
EKS	1.31	https://docs.aws.amazon.com/eks/

Platform	Version	Documentation
Kubernetes	1.31.x	https://kubernetes.io/docs/
OpenShift	4.17.x	https://docs.openshift.com/
EKS	1.31	https://docs.aws.amazon.com/eks/

Kubernetes & OpenShift Cluster Management

Current Versions (January 2026)

Kubernetes & OpenShift Cluster Management

Current Versions (January 2026)

Key Tools

Command Convention

1. CLUSTER OPERATIONS

Node Management

Cluster Upgrades

Backup with Velero

2. TROUBLESHOOTING

Health Assessment

Pod Status Interpretation

Debugging Commands

Network Troubleshooting

3. MANIFEST GENERATION

Production Deployment Template

Helm Chart Scaffolding

Python Observability

K8s Manifest Generator

Istio Traffic Management

Secrets Management

Gitops Workflow