Résumé
Nous avons un serveur appelé k qui sert à héberger certaines applications que nous n’avons pas encore migrées sur notre cluster et il sert aussi de serveur de sauvegarde.
Ce matin ses disques durs sont arrivés à 100% d’espace utilisé. Cela a eu pour conséquence directe de faire tomber les applications hébergées sur ce serveur et indirectement cela a ralentie d’autres applications dont le processus de sauvegarde dysfonctionnait.
Durées
Start Time | Incident Detected By(User-reported/ Ad-hoc monitoring/ Alerting system) | ||
---|---|---|---|
Detection Time | 12/10 3h05 | Time to Detect (TTD) | 1 minute par UptimeRobot |
Mitigation Time | 12/10 9h30 | Time to Mitigate (TTM) | 3h25 |
Resolution Time | 12/10 9h49 | Time to Resolve (TTR) | 3h44 |
Chronologie
Date/Time | Who/What | Action/ Impact |
---|---|---|
8h08 | Hugo voit un problème (OOM - Out Of Memory) sur le cluster Louise Michel | - |
9h23 | Hugo voit que c’est en fait le disk du serveur k qui est full et que le OOM n’est qu’une conséquence | |
9h30 | Pierre vient aider à faire de la place sur le serveur k | Certains services repartent |
9h46 | - | Tous les services sont de nouveaux opérationnels |
Impact
Impact sur les utilisateurices
6 Services (moajoritairement les forums) étaient complètement innaccessibles.
Impact sur l’infrastructure
Le dump des base de données des services du cluster principal n’ont pas fonctionné cette nuit.
Cause de l’incident?
Déclencheur(s)
Les données se sont accumulées sur ce serveur.
Source de l’incident
Le disque du serveur k était plein.
Mitigation & Résolution
- Nettoyage du serveur à la main après la prise de connaissance de l’incident
Lessons apprises
- Il faut nettoyer le serveur
- Il faut mettre une alarme avant d’avoir un incident
Ce qui s’est bien passé
Une fois l’incident bien identifié, la résolution est intervenue rapidement.
Ce qui s’est mal passé
Nous avons pris du temps à identifier la source de l’incident, car cet incident avait des effets de bords.
Nous avons été chanceux-ses
Car les disks des base de données étaient aussi en train de se remplir car le serveur de backup (k) était plus disponible.
Actions
Action Item | Type (Mitigate/ Prevent/ Process/ Other) | Priority | Bug # |
---|---|---|---|
Ajouter le server k au prometheus de LouiseMichel | Prevent | High | #316 |
Mettre une alerte sur la projection du disque plein dans la semaine | Prevent | High | #317 |
Automatiser la suppression de la corbeille | Mitigate | Low | #318 |
Script pour nettoyer les anciens dumps de LouiseMichel | Mitigate | Low | #319 |