Postmortem #7
Résumé
La connexion entre les serveurs dédiés et les machines virtuelles de notre cluster Ada Lovelace est tombée.
Durées
Heure de début | 10/02 09:08 | - | Cluster Ada Lovelace dysfonctionnel |
---|---|---|---|
Heure de détection | 10/02 09:08 | Time to Detect (TTD) - 0:01 | Alerte envoyé par Uptime |
Heure de réaction | 10/02 09:23 | Time to Acknowledge (TTA) - 0:15 | Alerte reçu par un membre de l’équipe |
Heure de résolution | 10/02 09:26 | Time to Resolve (TTR) - 0:03 | Cluster opérationnel |
Impact
Impact sur les utilisateurices
Entre 9h08 et 9h26 il n’était plus possible d’accéder à certains de nos services. De plus, les services Matrix étaient inaccessibles.
Impact sur l’infrastructure
NA
Cause de l’incident
Faute du vSwitch de notre fournisseur.
Mitigation & Résolution
Réinitialiser le vSwitch.
Leçons apprises
Ce qui s’est bien passé
Une fois le problème identifié, notre intervention a été rapide et sans erreur.
Ce qui s’est mal passé
Ce vSwitch est un point de défaillance unique.
Actions
Actions à mettre en place
- Enlever ce point de défaillance de notre prochain cluster.