Postmortem #5 - Incident cluster de stockage - Matinée du jeudi 2 juin

Postmortem #5 - Incident cluster de stockage - Matinée du jeudi 2 juin

Résumé

Le cluster de stockage était complètement rempli.

Durées

Heure de début 02/06 08:16 Incident signalé par un utilisateur 99% d’espace occupé le 01/06 à 22h
Heure de détéction 02/06 10:15 Time to Detect (TTD) - 1:59 Source du problème identifiée
Heure de mitigation 02/06 11:30 Time to Mitigate (TTM) - 1:15 Début de la suppression de vielles données
Resolution Time 02/06 13:00 Time to Resolve (TTR) - 1:30 Environ 200 Go libérés

Chronologie

Date/Time Who/What Action/ Impact
8:16 Un contributeur Envoi un mail au support
9:26 Hugo Commence à investiguer
10:15 Hugo Identifie le problème et contact le reste de l’équipe
10:38 Pierre Publie un article sur le forum pour informer nos contributeurs
11:?? Pierre et Hugo Suppriment les données d’anciens contributeurs
11:?? Hugo Configure plusieurs niveaux de stockage pour déplacer les anciennes versions des fichiers vers notre cluster de sauvegarde (uniquement sur nuage.liiib.re)
11:30 Pierre Lance la suppression les anciennes versions de plus de 6 mois des fichiers sur nuage.liiib.re

Impact

Impact sur les utilisateurices

Jusqu’à 11:30, il n’était plus possible d’ajouter ou modifier des fichiers sur tous nos services. Mais les fichiers déjà présents étaient toujours accessibles en lecture.

Impact sur l’infrastructure

NA

Cause de l’incident

Rien de spécifique, le cluster s’est juste rempli tranquillement au cours du temps. Cependant, nous gardons toutes les versions des fichiers ce qui n’est pas viable sur le long terme. Et nous avions du monitoring en place mais, pas de système d’alerte.

Mitigation & Résolution

Nous avons résolu le problème en libérant de l’espace. Mais cette solution ne durera pas indéfiniment.

Lessons apprises

Ce qui s’est bien passé

Il n’y a pas eu d’effet secondaire sur l’infrastructure. (Selon les systèmes, ce genre de problème peut causer des situations de blocage, car plus rien n’est modifiable.)

Une fois le problème identifié, notre intervention a été relativement rapide et sans erreurs.

Ce qui s’est mal passé

Nous n’avons pas été alerté en amont.

Actions

Actions envisagées

Actions à mettre en place