Postmortem #7 - Incident réseau - Matinée du vendredi 10 février

Postmortem #7

Résumé

La connexion entre les serveurs dédiés et les machines virtuelles de notre cluster Ada Lovelace est tombée.

Durées

Heure de début 10/02 09:08 - Cluster Ada Lovelace dysfonctionnel
Heure de détection 10/02 09:08 Time to Detect (TTD) - 0:01 Alerte envoyé par Uptime
Heure de réaction 10/02 09:23 Time to Acknowledge (TTA) - 0:15 Alerte reçu par un membre de l’équipe
Heure de résolution 10/02 09:26 Time to Resolve (TTR) - 0:03 Cluster opérationnel

Impact

Impact sur les utilisateurices

Entre 9h08 et 9h26 il n’était plus possible d’accéder à certains de nos services. De plus, les services Matrix étaient inaccessibles.

Impact sur l’infrastructure

NA

Cause de l’incident

Faute du vSwitch de notre fournisseur.

Mitigation & Résolution

Réinitialiser le vSwitch.

Leçons apprises

Ce qui s’est bien passé

Une fois le problème identifié, notre intervention a été rapide et sans erreur.

Ce qui s’est mal passé

Ce vSwitch est un point de défaillance unique.

Actions

Actions à mettre en place

  • Enlever ce point de défaillance de notre prochain cluster.