Playbook Incident Kafka : Diagnostic et Résolution
Ce playbook complet est disponible à l'achat. Il contient 23 scénarios d'incidents avec solutions détaillées.
Ce que contient ce Playbook
Ce document est le résultat de 5 ans d'astreinte Kafka et de la résolution de centaines d'incidents en production. Il couvre :
23 Scénarios d'Incidents
- Broker ne démarre pas
- Partition offline / No leader
- Under-replicated partitions
- Consumer lag qui explose
- Producer timeout / Request timeout
- OutOfMemoryError broker
- Disk full sur un broker
- Network partition entre brokers
- ZooKeeper session expired
- Controller failover constant
- Rebalance en boucle
- Consumer group stuck in PreparingRebalance
- Message trop gros rejeté
- SSL handshake failure
- SASL authentication failed
- ACL denied
- Log compaction stuck
- ISR shrink/expand storm
- Uneven partition distribution
- Hot partition
- Consumer position lost
- Duplicate messages
- Data corruption detected
Pour Chaque Scénario
- Symptômes : Comment détecter le problème
- Arbre de décision : Diagnostic pas à pas
- Commandes : Les commandes exactes à exécuter
- Solution : Actions correctives
- Prévention : Comment éviter la récurrence
- Temps estimé : Résolution typique
Aperçu : Scénario #3 - Under-Replicated Partitions
Symptômes
Alerte: kafka_under_replicated_partitions > 0
Métrique JMX: UnderReplicatedPartitions != 0
Arbre de Décision
Under-replicated partitions détectées
│
▼
Un broker est-il down ?
┌──────┴──────┐
OUI NON
│ │
▼ ▼
→ #2 Réseau OK entre brokers ?
┌──────┴──────┐
OUI NON
│ │
▼ ▼
Disk I/O OK ? → Fix réseau
┌──────┴──────┐
OUI NON
│ │
▼ ▼
ISR config ? → Optimiser I/O
Commandes de Diagnostic
# Identifier les partitions affectées
kafka-topics.sh --bootstrap-server $BOOTSTRAP \
--describe --under-replicated-partitions
# Vérifier l'état des répliques
kafka-topics.sh --bootstrap-server $BOOTSTRAP \
--describe --topic $TOPIC | grep "Isr:"
# Vérifier les logs du broker suspect
grep -i "replica" /var/log/kafka/server.log | tail -100
Solution Express
# Si broker lent - réassigner les partitions
kafka-reassign-partitions.sh --bootstrap-server $BOOTSTRAP \
--reassignment-json-file reassign.json --execute
# Si disk I/O - ajouter un disk ou réduire rétention
kafka-configs.sh --bootstrap-server $BOOTSTRAP \
--alter --entity-type topics --entity-name $TOPIC \
--add-config retention.ms=86400000
Contenu Complet Disponible
L'achat vous donne accès à :
- ✅ PDF de 87 pages avec tous les scénarios
- ✅ Scripts de diagnostic prêts à l'emploi
- ✅ Templates d'alertes pour Prometheus/Grafana
- ✅ Mises à jour gratuites pendant 1 an
- ✅ Support email pour questions spécifiques
Témoignages
"Ce playbook m'a sauvé lors d'un incident à 3h du matin. J'ai résolu en 10 minutes ce qui m'aurait pris des heures." — Thomas R., SRE chez une fintech
"Indispensable pour toute équipe qui gère Kafka en production. Le ROI est immédiat." — Marie L., Lead DevOps
Acheter le Playbook
Prix : 29€ (TVA incluse)
✅ Accès immédiat après paiement ✅ Format PDF + Markdown ✅ Scripts inclus (GitHub) ✅ Mises à jour 1 an
Paiement sécurisé par Stripe. Satisfait ou remboursé 14 jours.