Postmortem
Résumé
Le cluster de stockage était indisponible pendant quelques minutes.
Durées
Start Time | Incident Detected By(User-reported/ Ad-hoc monitoring/ Alerting system) | ||
---|---|---|---|
Detection Time | 14h00 | Time to Detect (TTD) | Le système d’alerte s’est déclenché instantanément |
Resolution Time | 14h08 | Time to Resolve (TTR) | Après l’identification du problème, la résolution a eté immédiate |
Chronologie
Date/Time | Who/What | Action/ Impact |
---|---|---|
2022 29 03 / 14h00 | Alerte sur notre outil | Début de l’investigation |
14h04 | Pierre avec Hugo se rendent compte qu’il y a un problème réseau entre différentes machines | Recharge de la config réseau dans un équipement réseau chez notre fournisseur |
14h08 | Tous les services refonctionnent |
Impact
Impact sur les utilisateurices
Pendant l’incident le stockage n’était pas disponible cela veut dire que:
- les fichiers stockés sur les nuages n’étaient pas disponibles, ni en téléchargement, ni en édition collaborative
- les images uploadées ou avatar sur le chat ne se chargaient pas
- les vidéos sur le centre d’aide ou sur le site ne se chargaient pas
- les images sur les forum ne se chargeaient pas
- les images sur les pads ne se chargeaient pas
Impact sur l’infrastructure
Aucun
Cause de l’incident?
Problème réseau chez le fournisseur
Mitigation & Résolution
Recharge de la config réseau de cet équipement
Lessons apprises
Ce qui s’est bien passé
L’alerte a bien fonctionné.
Une fois le problème identifié, il a été résolu rapidement.
Ce qui s’est mal passé
NA
Nous avons été chanceux-ses
NA
Actions
C’est lié à cet incident chez notre fournisseur.
Mais nous allons quand même changer l’architecture de notre réseau pour moins dépendre de cette partie de l’infra de notre fournisseur.
Action Item | Type (Mitigate/ Prevent/ Process/ Other) | Who | Priority | Bug # | Due Date |
---|---|---|---|---|---|