Postmortem #5 - Incident cluster de stockage - Matinée du jeudi 2 juin

hougo · Juin 3, 2022, 3:53

Postmortem #5 - Incident cluster de stockage - Matinée du jeudi 2 juin

Résumé

Le cluster de stockage était complètement rempli.

Durées

Heure de début	02/06 08:16	Incident signalé par un utilisateur	99% d’espace occupé le 01/06 à 22h
Heure de détéction	02/06 10:15	Time to Detect (TTD) - 1:59	Source du problème identifiée
Heure de mitigation	02/06 11:30	Time to Mitigate (TTM) - 1:15	Début de la suppression de vielles données
Resolution Time	02/06 13:00	Time to Resolve (TTR) - 1:30	Environ 200 Go libérés

Chronologie

Date/Time	Who/What	Action/ Impact
8:16	Un contributeur	Envoi un mail au support
9:26	Hugo	Commence à investiguer
10:15	Hugo	Identifie le problème et contact le reste de l’équipe
10:38	Pierre	Publie un article sur le forum pour informer nos contributeurs
11:??	Pierre et Hugo	Suppriment les données d’anciens contributeurs
11:??	Hugo	Configure plusieurs niveaux de stockage pour déplacer les anciennes versions des fichiers vers notre cluster de sauvegarde (uniquement sur nuage.liiib.re)
11:30	Pierre	Lance la suppression les anciennes versions de plus de 6 mois des fichiers sur nuage.liiib.re

Impact

Impact sur les utilisateurices

Jusqu’à 11:30, il n’était plus possible d’ajouter ou modifier des fichiers sur tous nos services. Mais les fichiers déjà présents étaient toujours accessibles en lecture.

Impact sur l’infrastructure

NA

Cause de l’incident

Rien de spécifique, le cluster s’est juste rempli tranquillement au cours du temps. Cependant, nous gardons toutes les versions des fichiers ce qui n’est pas viable sur le long terme. Et nous avions du monitoring en place mais, pas de système d’alerte.

Mitigation & Résolution

Nous avons résolu le problème en libérant de l’espace. Mais cette solution ne durera pas indéfiniment.

Lessons apprises

Ce qui s’est bien passé

Il n’y a pas eu d’effet secondaire sur l’infrastructure. (Selon les systèmes, ce genre de problème peut causer des situations de blocage, car plus rien n’est modifiable.)

Une fois le problème identifié, notre intervention a été relativement rapide et sans erreurs.

Ce qui s’est mal passé

Nous n’avons pas été alerté en amont.

Actions

Actions envisagées

doubler la taille du cluster de stockage
mettre en place une politique de suppression automatique des versions de plus de X temps.

Actions à mettre en place

ajouter un système d’alerte
faire du nettoyage:
- anciennes versions
- comparer les fichiers dans le bucket et dans la bdd