Postmortem #6 - Incident cluster de stockage - Matinée du mardi 15 novembre

Résumé

Un certificat a expiré dans notre cluster de stockage.

Durées

Heure de début 15/11 10:01 Alerte envoyé Cluster hot dysfonctionnel
Heure de détéction 15/11 10:15 Time to Detect (TTD) - 0:14 Source du problème identifiée
Resolution Time 15/11 10:20 Time to Resolve (TTR) - 0:06 Nouveau cert en place et les 2 clusters de stockages ont redémarrés

Impact

Impact sur les utilisateurices

Entre 10h et 10h20 il n’était plus possible d’accéder ou modifier à des fichiers sur tous nos services.

Impact sur l’infrastructure

NA

Cause de l’incident

Un certificat a expiré.

Mitigation & Résolution

Renouveler le certificat et redémarrer les clusters.

Leçons apprises

Ce qui s’est bien passé

Une fois le problème identifié, notre intervention a été rapide et sans erreur.

Ce qui s’est mal passé

Nous n’avons pas renouvelé le certificat à temps.

Actions

Actions à mettre en place

  • mettre à jour un composant chargé du renouvellement automatisé.
1 « J'aime »