Postmortem
Résumé
Notre fournisseur de serveurs a subi une grosse attaque rendant nos services indisponibles
Durées
Start Time | Incident Detected By(User-reported/ Ad-hoc monitoring/ Alerting system) | ||
---|---|---|---|
Detection Time | 22h09 | Time to Detect (TTD) | Le système d’alerte s’est déclenché instantanément |
Resolution Time | 00h40 | Time to Resolve (TTR) | Les équipes Hetzner ont mitigé le problème, les services sont de nouveau accessibles |
Chronologie
Date/Time | Who/What | Action/ Impact |
---|---|---|
2022 28 04 / 22h09 | Alerte sur notre outil | Début de l’investigation |
23h30 | Hetzner met à jours sa page status pour prévenir qu’une attaque est en cours | Nous laissons les équipes Hetzner, aucune intervention possible de notre côté. Nous nous préparons pour une remise en ligne, partielle ou complète, des services si le problème persiste le lendemain |
00h40 | Hetzner limite le traffic | Tous les services refonctionnent |
06h44 | Hetzner | Page status Hetzner mis à jours. Tous leurs services refonctionnent |
Impact
Impact sur les utilisateurices
Pendant l’incident tous nos services étaient indisponibles
Impact sur l’infrastructure
La communication entre les serveurs du cluster étaient dégradées.
Cause de l’incident?
Attaque sur le site Falkenstein de notre fournisseur Hetzner.
Mitigation & Résolution
Les techniciens ont mitigé le problème en limitant le traffic UDP sur les ports 9000-65535.
Lessons apprises
Ce qui s’est bien passé
L’alerte a bien fonctionné.
Nos équipes ont été réactives (bien que ne nous garantissons pas d’intervention après 19h).
Nos services de sauvegardes et de support étant sur un autre site, ils restaient accessibles.
Ce qui s’est mal passé
La page status d’Hetzner a été mise à jours tardivement, nous laissant aveugle face au problème rencontré et dans l’incompréhension lors de notre investigation.
Nous avons été chanceux-ses
L’attaque aurait pu durer plus longtemps
Actions
Cet événement nous pose question sur la possibilité d’avoir une infrastructure partagée sur plusieurs fournisseurs (sujet complexe !).
Nos sauvegardes étant sur un autre site et dans un autre pays mais chez le même fournisseur, nous envisageons de les mettre chez un autre fournisseur (sujet déjà en cours d’étude avant cette attaque).
Mise à jours et (re)test de nos procédures de remise en activité des services face à ce genre d’incident.
Vérifier les réseaux sociaux et ne pas uniquement se baser sur la page status de Hetzner
Avoir notre propre page de status chez un autre fournisseur
Ce genre d’attaque est d’un telle ampleur qu’elle demande d’importants moyens pour être effectuée. Même si nous ne savons par encore la source, la raison de l’attaque et ni le garantir au vu du contexte géopolitique actuelle nous pensons que ce type d’attaque n’aura pas de nouveau lieu.