Postmortem
Résumé
Suite à un defaut entre nos serveur et les serveurs DNS configurés, plusieurs de nos services ont eu des erreurs le 20/06.
Durées
Durées | |
---|---|
Durée de détection - Time to Detect (TTD) | 6min |
Durée de communication de l’incident | 22min (message sur le forum et dans le chat #liiibre-entraide:liiib.re) |
Durée rétablissement partiel du service - Time to Mitigate (TTM) | 30min (nuages de nouveau opérationnels mais sans OnlyOffice) |
Durée résolution finale - Time to Mitigate (TTM) | 3jours (l’intégralité des services sont de nouveau opérationnels) |
Chronologie
Date/Heure | Qui/Quoi | Action/ Impact |
---|---|---|
2025/06/20 7h22 (FR) | Monitoring (robot uptimekuma) | Un certain nombre de services sont Down (nuages, et stockage minio) |
2025/06/20 7h40 à 7h54 | Monitoring (robot uptimekuma) | Ces services reviennent opérationnels |
2025/06/20 8h54 | Monitoring (robot uptimekuma) | Un certain nombre de services sont Down de nouveau (nuages, et stockage minio) |
2025/06/20 9h | Un.e contributeurice nous appelle | Leur nuage n’est plus accessible. Erreur 503 |
2025/06/20 9h | TimJ - Tickets support | Plusieurs tickets reçu pour des nuages qui ne répondent plus. |
2025/06/20 9h10 | Arnaud | Remarque des erreurs « ImagePullBackOff » et « ErrImagePull » sur les pods des nuages |
2025/06/20 9h15 | Pierre | Hypothèse rate limit atteint sur quay.io. Modification du déploiement de certains nuage. (changement de imagePullPolicy: IfNotPresent à imagePullPolicy: Always ) |
2025/06/20 9h22 | TimJ | message sur le forum et dans le chat #liiibre-entraide:liiib.re pour prévenir de l’incident |
2025/06/20 9h30 | Monitoring (robot uptimekuma) | Les nuages sont de nouveau opérationnels. Cependant la connexion via le SSO ne fonctionne pas toujours. Erreur connexion oidc |
2025/06/20 9h45 | TimJ | Nos mails ne partent plus. Nous ne les recevons plus non plus. |
2025/06/20 10h | TimG & Pierre | Il s’agit en fait d’un problème de DNS. Changement du DNS sur les noeuds kubernetes et sur la VM k. |
2025/06/20 11h | TimG & Pierre | L’ensemble des nuages sont de nouveau opérationnels mise à part l’édition avec OnlyOffice. |
2025/06/20 11h37 | Pierre | Redémarrage de la VM k (qui héberge les serveurs OnlyOffice) |
2025/06/20 15h57 | Pierre | Redémarrage de la VM k |
2025/06/20 16h | TimJ & Pierre | Certains OnlyOffice sont toujours down. Changement de la version de RabbitMq (pour la 4.0.9) puis restart |
2025/06/20 17h-18h40 | TimJ & Arnaud | Mise à jour des versions Rabbitmq pour chaque onlyoffice (1 par 1), redémarrage puis test fonctionnement des onlyoffice (1 par 1). Certains sont OK, d’autres toujours down. |
2025/06/21 8h20-10h | Arnaud | Redémarrage de tous les onlyoffice avec une erreur dans les logs. Tous les services sont de nouveaux opérationnels |
2025/06/23 8h45 | Ticket client | Un onlyoffice est toujours KO |
2025/06/23 9h30 | Arnaud | Cet onlyoffice n’avait pas démarré. Redémarrage OK. |
2025/06/23 10h | Arnaud | Communication sur la fin de l’incident sur le forum |
Impact
Impact sur les utilisateurices
-
Erreur 503 lors de la navigation sur le nuage.
-
Erreur OIDC à la connexion avec le SSO.
-
Erreur OnlyOffice à l’ouverture d’un document.
ou
Impact sur l’infrastructure
Cause de l’incident
Instabilité entre notre infra et les DNS externes configurés.
Déclencheur(s)
Nous ne savons pas exactement ce qu’il s’est passé sur les serveurs DNS upstream.
Il y avait cet incident au meme moment, ils sont peut-etre liés:
Root Cause(s)
La connexion aux serveurs DNS utilisés par nos serveurs étaient instables.
Mitigation & Résolution
- Changement des DNS sur les serveurs & redémarrage des services.
- OO : erreur d’incompatibilité de version avec celle de Rabbitmq.
Leçons apprises
Ce qui s’est bien passé
Une fois le problème identifié, la résolution est intervenue rapidement.
Ce qui s’est mal passé
Nous avons mis du temps à comprendre que le DNS était la cause profonde de l’incident.
Il y avait d’autres possibilités, et un monitoring du DNS pourra nous aider à identifier la cause la prochaine fois.
Nous avons été chanceux-ses
Actions
Action Item | Type (Mitigate/ Prevent/ Process/ Other) | Who | Priority | Bug # | Due Date |
---|---|---|---|---|---|
DNS monitoring | Monitoring (collect metrics, create alerts and dashboards) | High | Making sure you're not a bot! | ||
Improve dns configuration | Prevent | Medium | Making sure you're not a bot! | ||
Changer la config de pull d’image dans nos deploy | Mitigate | Very High | Making sure you're not a bot! | ||
Avoir un registry local au cluster | Mitigate | Medium | Making sure you're not a bot! |