kubernetes
Avancé

Runbook Production Kubernetes : 35 Procédures Opérationnelles

Runbook Production Kubernetes : 35 Procédures Opérationnelles

Le runbook que j'utilise pour opérer mes clusters K8s. Maintenance, incidents, upgrades - toutes les procédures documentées.

Florian Courouge
60 min de lecture
729 mots
0 vues
#Kubernetes
#Runbook
#Production
#SRE
#Operations

Runbook Production Kubernetes

Contenu Premium

Ce runbook complet est disponible à l'achat. Il contient 35 procédures opérationnelles détaillées.

Ce que contient ce Runbook

Ce document est le résultat de 6 ans d'opérations Kubernetes sur des clusters de production (EKS, GKE, on-premise). Il couvre toutes les situations que vous rencontrerez.


35 Procédures Documentées

Opérations Courantes (10 procédures)

  1. Rolling restart d'un Deployment
  2. Scaling manuel d'urgence
  3. Drain d'un node pour maintenance
  4. Rotation des secrets
  5. Mise à jour d'une image
  6. Rollback d'un déploiement
  7. Ajout d'un nouveau namespace
  8. Configuration des ResourceQuotas
  9. Gestion des CronJobs
  10. Backup et restore des ressources

Incidents & Troubleshooting (12 procédures)

  1. Pod en CrashLoopBackOff
  2. Pod en Pending (non schedulé)
  3. Node NotReady
  4. PVC en Pending
  5. Service sans endpoints
  6. OOMKilled répétés
  7. Eviction de pods
  8. DNS resolution failure
  9. Certificate expiration
  10. RBAC permission denied
  11. Network policy blocking traffic
  12. Ingress 502/503 errors

Maintenance Planifiée (8 procédures)

  1. Upgrade version Kubernetes
  2. Upgrade des nodes
  3. Rotation des certificats
  4. Expansion d'un PersistentVolume
  5. Migration vers nouveau StorageClass
  6. Changement de CNI
  7. Upgrade ingress controller
  8. Maintenance etcd

Disaster Recovery (5 procédures)

  1. Perte d'un node master
  2. Corruption etcd
  3. Perte du cluster entier
  4. Restore depuis backup
  5. Failover multi-cluster

Aperçu : Procédure #11 - Pod en CrashLoopBackOff

Symptômes

$ kubectl get pods
NAME                    READY   STATUS             RESTARTS   AGE
my-app-7d4f8b6c-x2k9j   0/1     CrashLoopBackOff   5          10m

Arbre de Décision

Pod en CrashLoopBackOff
        │
        ▼
  Vérifier les logs
        │
        ▼
 Logs disponibles ?
  ┌─────┴─────┐
 OUI         NON
  │           │
  ▼           ▼
Analyser    Container démarre ?
l'erreur    ┌─────┴─────┐
  │        OUI         NON
  │         │           │
  │         ▼           ▼
  │    Vérifier      Vérifier
  │    OOM/limits    image/pull
  │         │           │
  ▼         ▼           ▼
┌─────────────────────────────────┐
│     CATÉGORIES D'ERREURS        │
├─────────────────────────────────┤
│ • Application error (code)      │
│ • Configuration error           │
│ • Resource limits (OOM)         │
│ • Dependency unavailable        │
│ • Permission/Security context   │
│ • Volume mount failure          │
└─────────────────────────────────┘

Commandes de Diagnostic

# 1. Logs du crash actuel
kubectl logs my-app-xxx -n production

# 2. Logs du crash précédent
kubectl logs my-app-xxx -n production --previous

# 3. Events du pod
kubectl describe pod my-app-xxx -n production | grep -A 20 Events:

# 4. Vérifier les resources
kubectl describe pod my-app-xxx -n production | grep -A 5 "Limits:"

# 5. Vérifier les mounts
kubectl describe pod my-app-xxx -n production | grep -A 10 "Mounts:"

Solutions par Cause

Application Error :

# Vérifier la config
kubectl get configmap my-app-config -n production -o yaml

# Vérifier les secrets
kubectl get secret my-app-secrets -n production -o yaml

OOMKilled :

# Augmenter les limits
kubectl patch deployment my-app -n production --type='json' \
  -p='[{"op": "replace", "path": "/spec/template/spec/containers/0/resources/limits/memory", "value": "1Gi"}]'

Dependency unavailable :

# Vérifier la dépendance (ex: database)
kubectl get pods -n production -l app=postgresql
kubectl get svc postgresql -n production

Checklist de Résolution

  • Logs analysés (current + previous)
  • Events vérifiés
  • Resources (CPU/Memory) vérifiées
  • ConfigMaps/Secrets validés
  • Dépendances accessibles
  • Security context correct
  • Volumes montés correctement

Pour Chaque Procédure

  • Contexte : Quand utiliser cette procédure
  • Pré-requis : Accès et outils nécessaires
  • Étapes détaillées : Commandes exactes avec explications
  • Vérification : Comment confirmer le succès
  • Rollback : Comment annuler si problème
  • Temps estimé : Durée typique

Contenu Complet Disponible

L'achat vous donne accès à :

  • PDF de 120+ pages avec toutes les procédures
  • Scripts bash prêts à l'emploi
  • Checklists imprimables pour chaque procédure
  • Templates YAML de configuration
  • Dashboards Grafana pour le monitoring
  • Mises à jour gratuites pendant 1 an
  • Support email pour questions spécifiques

Témoignages

"Ce runbook nous a permis de réduire notre MTTR de 2h à 20 minutes. Indispensable." — Alexandre M., Platform Engineer

"Parfait pour onboarder les nouveaux SRE. Tout est documenté, rien n'est laissé au hasard." — Sarah K., SRE Manager


Acheter le Runbook

Prix : 39€ (TVA incluse)

✅ Accès immédiat après paiement ✅ Format PDF + Markdown + Scripts ✅ Dashboards Grafana inclus ✅ Mises à jour 1 an

Acheter maintenant →


Paiement sécurisé par Stripe. Satisfait ou remboursé 14 jours.

F

Florian Courouge

Expert DevOps & Kafka | Consultant freelance specialise dans les architectures distribuees et le streaming de donnees.

Articles similaires