Runbook Production Kubernetes
Ce runbook complet est disponible à l'achat. Il contient 35 procédures opérationnelles détaillées.
Ce que contient ce Runbook
Ce document est le résultat de 6 ans d'opérations Kubernetes sur des clusters de production (EKS, GKE, on-premise). Il couvre toutes les situations que vous rencontrerez.
35 Procédures Documentées
Opérations Courantes (10 procédures)
- Rolling restart d'un Deployment
- Scaling manuel d'urgence
- Drain d'un node pour maintenance
- Rotation des secrets
- Mise à jour d'une image
- Rollback d'un déploiement
- Ajout d'un nouveau namespace
- Configuration des ResourceQuotas
- Gestion des CronJobs
- Backup et restore des ressources
Incidents & Troubleshooting (12 procédures)
- Pod en CrashLoopBackOff
- Pod en Pending (non schedulé)
- Node NotReady
- PVC en Pending
- Service sans endpoints
- OOMKilled répétés
- Eviction de pods
- DNS resolution failure
- Certificate expiration
- RBAC permission denied
- Network policy blocking traffic
- Ingress 502/503 errors
Maintenance Planifiée (8 procédures)
- Upgrade version Kubernetes
- Upgrade des nodes
- Rotation des certificats
- Expansion d'un PersistentVolume
- Migration vers nouveau StorageClass
- Changement de CNI
- Upgrade ingress controller
- Maintenance etcd
Disaster Recovery (5 procédures)
- Perte d'un node master
- Corruption etcd
- Perte du cluster entier
- Restore depuis backup
- Failover multi-cluster
Aperçu : Procédure #11 - Pod en CrashLoopBackOff
Symptômes
$ kubectl get pods
NAME READY STATUS RESTARTS AGE
my-app-7d4f8b6c-x2k9j 0/1 CrashLoopBackOff 5 10m
Arbre de Décision
Pod en CrashLoopBackOff
│
▼
Vérifier les logs
│
▼
Logs disponibles ?
┌─────┴─────┐
OUI NON
│ │
▼ ▼
Analyser Container démarre ?
l'erreur ┌─────┴─────┐
│ OUI NON
│ │ │
│ ▼ ▼
│ Vérifier Vérifier
│ OOM/limits image/pull
│ │ │
▼ ▼ ▼
┌─────────────────────────────────┐
│ CATÉGORIES D'ERREURS │
├─────────────────────────────────┤
│ • Application error (code) │
│ • Configuration error │
│ • Resource limits (OOM) │
│ • Dependency unavailable │
│ • Permission/Security context │
│ • Volume mount failure │
└─────────────────────────────────┘
Commandes de Diagnostic
# 1. Logs du crash actuel
kubectl logs my-app-xxx -n production
# 2. Logs du crash précédent
kubectl logs my-app-xxx -n production --previous
# 3. Events du pod
kubectl describe pod my-app-xxx -n production | grep -A 20 Events:
# 4. Vérifier les resources
kubectl describe pod my-app-xxx -n production | grep -A 5 "Limits:"
# 5. Vérifier les mounts
kubectl describe pod my-app-xxx -n production | grep -A 10 "Mounts:"
Solutions par Cause
Application Error :
# Vérifier la config
kubectl get configmap my-app-config -n production -o yaml
# Vérifier les secrets
kubectl get secret my-app-secrets -n production -o yaml
OOMKilled :
# Augmenter les limits
kubectl patch deployment my-app -n production --type='json' \
-p='[{"op": "replace", "path": "/spec/template/spec/containers/0/resources/limits/memory", "value": "1Gi"}]'
Dependency unavailable :
# Vérifier la dépendance (ex: database)
kubectl get pods -n production -l app=postgresql
kubectl get svc postgresql -n production
Checklist de Résolution
- Logs analysés (current + previous)
- Events vérifiés
- Resources (CPU/Memory) vérifiées
- ConfigMaps/Secrets validés
- Dépendances accessibles
- Security context correct
- Volumes montés correctement
Pour Chaque Procédure
- Contexte : Quand utiliser cette procédure
- Pré-requis : Accès et outils nécessaires
- Étapes détaillées : Commandes exactes avec explications
- Vérification : Comment confirmer le succès
- Rollback : Comment annuler si problème
- Temps estimé : Durée typique
Contenu Complet Disponible
L'achat vous donne accès à :
- ✅ PDF de 120+ pages avec toutes les procédures
- ✅ Scripts bash prêts à l'emploi
- ✅ Checklists imprimables pour chaque procédure
- ✅ Templates YAML de configuration
- ✅ Dashboards Grafana pour le monitoring
- ✅ Mises à jour gratuites pendant 1 an
- ✅ Support email pour questions spécifiques
Témoignages
"Ce runbook nous a permis de réduire notre MTTR de 2h à 20 minutes. Indispensable." — Alexandre M., Platform Engineer
"Parfait pour onboarder les nouveaux SRE. Tout est documenté, rien n'est laissé au hasard." — Sarah K., SRE Manager
Acheter le Runbook
Prix : 39€ (TVA incluse)
✅ Accès immédiat après paiement ✅ Format PDF + Markdown + Scripts ✅ Dashboards Grafana inclus ✅ Mises à jour 1 an
Paiement sécurisé par Stripe. Satisfait ou remboursé 14 jours.