kafka
Avancé

Playbook Incident Kafka : Diagnostic et Résolution en 15 Minutes

Playbook Incident Kafka : Diagnostic et Résolution en 15 Minutes

Le playbook que j'utilise en astreinte. 23 scénarios d'incidents avec arbres de décision, commandes de diagnostic et solutions testées.

Florian Courouge
45 min de lecture
494 mots
0 vues
#Kafka
#Incident
#Troubleshooting
#Production
#Playbook
#SRE

Playbook Incident Kafka : Diagnostic et Résolution

Contenu Premium

Ce playbook complet est disponible à l'achat. Il contient 23 scénarios d'incidents avec solutions détaillées.

Ce que contient ce Playbook

Ce document est le résultat de 5 ans d'astreinte Kafka et de la résolution de centaines d'incidents en production. Il couvre :

23 Scénarios d'Incidents

  1. Broker ne démarre pas
  2. Partition offline / No leader
  3. Under-replicated partitions
  4. Consumer lag qui explose
  5. Producer timeout / Request timeout
  6. OutOfMemoryError broker
  7. Disk full sur un broker
  8. Network partition entre brokers
  9. ZooKeeper session expired
  10. Controller failover constant
  11. Rebalance en boucle
  12. Consumer group stuck in PreparingRebalance
  13. Message trop gros rejeté
  14. SSL handshake failure
  15. SASL authentication failed
  16. ACL denied
  17. Log compaction stuck
  18. ISR shrink/expand storm
  19. Uneven partition distribution
  20. Hot partition
  21. Consumer position lost
  22. Duplicate messages
  23. Data corruption detected

Pour Chaque Scénario

  • Symptômes : Comment détecter le problème
  • Arbre de décision : Diagnostic pas à pas
  • Commandes : Les commandes exactes à exécuter
  • Solution : Actions correctives
  • Prévention : Comment éviter la récurrence
  • Temps estimé : Résolution typique

Aperçu : Scénario #3 - Under-Replicated Partitions

Symptômes

Alerte: kafka_under_replicated_partitions > 0
Métrique JMX: UnderReplicatedPartitions != 0

Arbre de Décision

Under-replicated partitions détectées
           │
           ▼
    Un broker est-il down ?
    ┌──────┴──────┐
   OUI           NON
    │             │
    ▼             ▼
  → #2        Réseau OK entre brokers ?
              ┌──────┴──────┐
             OUI           NON
              │             │
              ▼             ▼
        Disk I/O OK ?   → Fix réseau
        ┌──────┴──────┐
       OUI           NON
        │             │
        ▼             ▼
   ISR config ?   → Optimiser I/O

Commandes de Diagnostic

# Identifier les partitions affectées
kafka-topics.sh --bootstrap-server $BOOTSTRAP \
  --describe --under-replicated-partitions

# Vérifier l'état des répliques
kafka-topics.sh --bootstrap-server $BOOTSTRAP \
  --describe --topic $TOPIC | grep "Isr:"

# Vérifier les logs du broker suspect
grep -i "replica" /var/log/kafka/server.log | tail -100

Solution Express

# Si broker lent - réassigner les partitions
kafka-reassign-partitions.sh --bootstrap-server $BOOTSTRAP \
  --reassignment-json-file reassign.json --execute

# Si disk I/O - ajouter un disk ou réduire rétention
kafka-configs.sh --bootstrap-server $BOOTSTRAP \
  --alter --entity-type topics --entity-name $TOPIC \
  --add-config retention.ms=86400000

Contenu Complet Disponible

L'achat vous donne accès à :

  • PDF de 87 pages avec tous les scénarios
  • Scripts de diagnostic prêts à l'emploi
  • Templates d'alertes pour Prometheus/Grafana
  • Mises à jour gratuites pendant 1 an
  • Support email pour questions spécifiques

Témoignages

"Ce playbook m'a sauvé lors d'un incident à 3h du matin. J'ai résolu en 10 minutes ce qui m'aurait pris des heures." — Thomas R., SRE chez une fintech

"Indispensable pour toute équipe qui gère Kafka en production. Le ROI est immédiat." — Marie L., Lead DevOps


Acheter le Playbook

Prix : 29€ (TVA incluse)

✅ Accès immédiat après paiement ✅ Format PDF + Markdown ✅ Scripts inclus (GitHub) ✅ Mises à jour 1 an

Acheter maintenant →


Paiement sécurisé par Stripe. Satisfait ou remboursé 14 jours.

F

Florian Courouge

Expert DevOps & Kafka | Consultant freelance specialise dans les architectures distribuees et le streaming de donnees.

Articles similaires