Postmortem #5 - Incident cluster de stockage - Matinée du jeudi 2 juin
Résumé
Le cluster de stockage était complètement rempli.
Durées
Heure de début | 02/06 08:16 | Incident signalé par un utilisateur | 99% d’espace occupé le 01/06 à 22h |
---|---|---|---|
Heure de détéction | 02/06 10:15 | Time to Detect (TTD) - 1:59 | Source du problème identifiée |
Heure de mitigation | 02/06 11:30 | Time to Mitigate (TTM) - 1:15 | Début de la suppression de vielles données |
Resolution Time | 02/06 13:00 | Time to Resolve (TTR) - 1:30 | Environ 200 Go libérés |
Chronologie
Date/Time | Who/What | Action/ Impact |
---|---|---|
8:16 | Un contributeur | Envoi un mail au support |
9:26 | Hugo | Commence à investiguer |
10:15 | Hugo | Identifie le problème et contact le reste de l’équipe |
10:38 | Pierre | Publie un article sur le forum pour informer nos contributeurs |
11:?? | Pierre et Hugo | Suppriment les données d’anciens contributeurs |
11:?? | Hugo | Configure plusieurs niveaux de stockage pour déplacer les anciennes versions des fichiers vers notre cluster de sauvegarde (uniquement sur nuage.liiib.re) |
11:30 | Pierre | Lance la suppression les anciennes versions de plus de 6 mois des fichiers sur nuage.liiib.re |
Impact
Impact sur les utilisateurices
Jusqu’à 11:30, il n’était plus possible d’ajouter ou modifier des fichiers sur tous nos services. Mais les fichiers déjà présents étaient toujours accessibles en lecture.
Impact sur l’infrastructure
NA
Cause de l’incident
Rien de spécifique, le cluster s’est juste rempli tranquillement au cours du temps. Cependant, nous gardons toutes les versions des fichiers ce qui n’est pas viable sur le long terme. Et nous avions du monitoring en place mais, pas de système d’alerte.
Mitigation & Résolution
Nous avons résolu le problème en libérant de l’espace. Mais cette solution ne durera pas indéfiniment.
Lessons apprises
Ce qui s’est bien passé
Il n’y a pas eu d’effet secondaire sur l’infrastructure. (Selon les systèmes, ce genre de problème peut causer des situations de blocage, car plus rien n’est modifiable.)
Une fois le problème identifié, notre intervention a été relativement rapide et sans erreurs.
Ce qui s’est mal passé
Nous n’avons pas été alerté en amont.
Actions
Actions envisagées
- doubler la taille du cluster de stockage
- mettre en place une politique de suppression automatique des versions de plus de X temps.