Postmortem #10 - Incident DNS - 2025/07/02 9h

Postmortem

Résumé

Suite à un defaut entre nos serveur et les serveurs DNS configurés, plusieurs de nos services ont eu des erreurs le 20/06.

Durées

Durées
Durée de détection - Time to Detect (TTD) 6min
Durée de communication de l’incident 22min (message sur le forum et dans le chat #liiibre-entraide:liiib.re)
Durée rétablissement partiel du service - Time to Mitigate (TTM) 30min (nuages de nouveau opérationnels mais sans OnlyOffice)
Durée résolution finale - Time to Mitigate (TTM) 3jours (l’intégralité des services sont de nouveau opérationnels)

Chronologie

Date/Heure Qui/Quoi Action/ Impact
2025/06/20 7h22 (FR) Monitoring (robot uptimekuma) Un certain nombre de services sont Down (nuages, et stockage minio)
2025/06/20 7h40 à 7h54 Monitoring (robot uptimekuma) Ces services reviennent opérationnels
2025/06/20 8h54 Monitoring (robot uptimekuma) Un certain nombre de services sont Down de nouveau (nuages, et stockage minio)
2025/06/20 9h Un.e contributeurice nous appelle Leur nuage n’est plus accessible. Erreur 503
2025/06/20 9h TimJ - Tickets support Plusieurs tickets reçu pour des nuages qui ne répondent plus.
2025/06/20 9h10 Arnaud Remarque des erreurs « ImagePullBackOff » et « ErrImagePull » sur les pods des nuages
2025/06/20 9h15 Pierre Hypothèse rate limit atteint sur quay.io. Modification du déploiement de certains nuage. (changement de imagePullPolicy: IfNotPresent à imagePullPolicy: Always)
2025/06/20 9h22 TimJ message sur le forum et dans le chat #liiibre-entraide:liiib.re pour prévenir de l’incident
2025/06/20 9h30 Monitoring (robot uptimekuma) Les nuages sont de nouveau opérationnels. Cependant la connexion via le SSO ne fonctionne pas toujours. Erreur connexion oidc
2025/06/20 9h45 TimJ Nos mails ne partent plus. Nous ne les recevons plus non plus.
2025/06/20 10h TimG & Pierre Il s’agit en fait d’un problème de DNS. Changement du DNS sur les noeuds kubernetes et sur la VM k.
2025/06/20 11h TimG & Pierre L’ensemble des nuages sont de nouveau opérationnels mise à part l’édition avec OnlyOffice.
2025/06/20 11h37 Pierre Redémarrage de la VM k (qui héberge les serveurs OnlyOffice)
2025/06/20 15h57 Pierre Redémarrage de la VM k
2025/06/20 16h TimJ & Pierre Certains OnlyOffice sont toujours down. Changement de la version de RabbitMq (pour la 4.0.9) puis restart
2025/06/20 17h-18h40 TimJ & Arnaud Mise à jour des versions Rabbitmq pour chaque onlyoffice (1 par 1), redémarrage puis test fonctionnement des onlyoffice (1 par 1). Certains sont OK, d’autres toujours down.
2025/06/21 8h20-10h Arnaud Redémarrage de tous les onlyoffice avec une erreur dans les logs. Tous les services sont de nouveaux opérationnels
2025/06/23 8h45 Ticket client Un onlyoffice est toujours KO
2025/06/23 9h30 Arnaud Cet onlyoffice n’avait pas démarré. Redémarrage OK.
2025/06/23 10h Arnaud Communication sur la fin de l’incident sur le forum

Impact

Impact sur les utilisateurices

  • Erreur 503 lors de la navigation sur le nuage.

  • Erreur OIDC à la connexion avec le SSO.

  • Erreur OnlyOffice à l’ouverture d’un document.

    ou

Impact sur l’infrastructure

Cause de l’incident

Instabilité entre notre infra et les DNS externes configurés.

Déclencheur(s)

Nous ne savons pas exactement ce qu’il s’est passé sur les serveurs DNS upstream.
Il y avait cet incident au meme moment, ils sont peut-etre liés:

Root Cause(s)

La connexion aux serveurs DNS utilisés par nos serveurs étaient instables.

Mitigation & Résolution

  • Changement des DNS sur les serveurs & redémarrage des services.
  • OO : erreur d’incompatibilité de version avec celle de Rabbitmq.

Leçons apprises

Ce qui s’est bien passé

Une fois le problème identifié, la résolution est intervenue rapidement.

Ce qui s’est mal passé

Nous avons mis du temps à comprendre que le DNS était la cause profonde de l’incident.
Il y avait d’autres possibilités, et un monitoring du DNS pourra nous aider à identifier la cause la prochaine fois.

Nous avons été chanceux-ses

Actions

Action Item Type (Mitigate/ Prevent/ Process/ Other) Who Priority Bug # Due Date
DNS monitoring Monitoring (collect metrics, create alerts and dashboards) High Making sure you're not a bot!
Improve dns configuration Prevent Medium Making sure you're not a bot!
Changer la config de pull d’image dans nos deploy Mitigate Very High Making sure you're not a bot!
Avoir un registry local au cluster Mitigate Medium Making sure you're not a bot!

Documents

Merci!