Postmortem #4 - Attaque sur notre fournisseur de serveurs - Jeudi 29 Avril à 22h

Postmortem

Résumé

Notre fournisseur de serveurs a subi une grosse attaque rendant nos services indisponibles

Durées

Start Time Incident Detected By(User-reported/ Ad-hoc monitoring/ Alerting system)
Detection Time 22h09 Time to Detect (TTD) Le système d’alerte s’est déclenché instantanément
Resolution Time 00h40 Time to Resolve (TTR) Les équipes Hetzner ont mitigé le problème, les services sont de nouveau accessibles

Chronologie

Date/Time Who/What Action/ Impact
2022 28 04 / 22h09 Alerte sur notre outil Début de l’investigation
23h30 Hetzner met à jours sa page status pour prévenir qu’une attaque est en cours Nous laissons les équipes Hetzner, aucune intervention possible de notre côté. Nous nous préparons pour une remise en ligne, partielle ou complète, des services si le problème persiste le lendemain
00h40 Hetzner limite le traffic Tous les services refonctionnent
06h44 Hetzner Page status Hetzner mis à jours. Tous leurs services refonctionnent

Impact

Impact sur les utilisateurices

Pendant l’incident tous nos services étaient indisponibles

Impact sur l’infrastructure

La communication entre les serveurs du cluster étaient dégradées.

Cause de l’incident?

Attaque sur le site Falkenstein de notre fournisseur Hetzner.

Mitigation & Résolution

Les techniciens ont mitigé le problème en limitant le traffic UDP sur les ports 9000-65535.

Lessons apprises

Ce qui s’est bien passé

L’alerte a bien fonctionné.
Nos équipes ont été réactives (bien que ne nous garantissons pas d’intervention après 19h).
Nos services de sauvegardes et de support étant sur un autre site, ils restaient accessibles.

Ce qui s’est mal passé

La page status d’Hetzner a été mise à jours tardivement, nous laissant aveugle face au problème rencontré et dans l’incompréhension lors de notre investigation.

Nous avons été chanceux-ses

L’attaque aurait pu durer plus longtemps

Actions

Cet événement nous pose question sur la possibilité d’avoir une infrastructure partagée sur plusieurs fournisseurs (sujet complexe !).

Nos sauvegardes étant sur un autre site et dans un autre pays mais chez le même fournisseur, nous envisageons de les mettre chez un autre fournisseur (sujet déjà en cours d’étude avant cette attaque).

Mise à jours et (re)test de nos procédures de remise en activité des services face à ce genre d’incident.

Vérifier les réseaux sociaux et ne pas uniquement se baser sur la page status de Hetzner

Avoir notre propre page de status chez un autre fournisseur

Ce genre d’attaque est d’un telle ampleur qu’elle demande d’importants moyens pour être effectuée. Même si nous ne savons par encore la source, la raison de l’attaque et ni le garantir au vu du contexte géopolitique actuelle nous pensons que ce type d’attaque n’aura pas de nouveau lieu.

1 « J'aime »