Microsoft révèle les causes de la panne de ses services Azure

Microsoft révèle les causes de la panne de ses services Azure

Il ne s’agissait donc pas d’un poisson d’avril. La direction de Microsoft vient de révéler la cause profonde de la récente panne affectant Azure, qui a duré environ une heure et qui était due à un afflux de requêtes DNS (Domain Name System) associé à un défaut de code.

Pour rappel, les utilisateurs ont signalé que le portail Azure, les services Azure, Dynamics 365 et Xbox Live étaient inaccessibles durant une panne mondiale survenue le 1er avril dernier. Le géant américain a indiqué dans son rapport d’analyse que la majorité des services ont été rétablis à 22 h 30 UTC. Si la panne était liée à ses capacités DNS, l’analyse finale des causes profondes de la société publiée ce dimanche apporte un nouvel éclairage sur la cause, à savoir un défaut de code inédit dans son service DNS, déclenché par des tentatives excessives des clients DNS.

“Les serveurs DNS d’Azure ont connu une augmentation anormale des requêtes DNS provenant du monde entier et ciblant un ensemble de domaines hébergés sur Azure”, indique Microsoft. “Normalement, les couches de caches et de mise en forme du trafic d’Azure devraient atténuer cette poussée. Dans cet incident, une séquence spécifique d’événements a exposé un défaut de code dans notre service DNS qui a réduit l’efficacité de nos caches DNS Edge”.

publicité

Noyé sous les requêtes DNS

Le service DNS de Microsoft a été submergé lorsque les clients DNS ont relancé les demandes, ce qui a ajouté une pression supplémentaire sur le service. Microsoft note que les tentatives des clients DNS sont considérées comme du trafic DNS légitime, de sorte que ce trafic n’a pas été abandonné par les systèmes d’atténuation volumétrique de Microsoft, ce qui a réduit la disponibilité de son service DNS dans plusieurs régions.

La direction du géant américain dit avoir atténué le problème en mettant à jour la logique du système d’atténuation volumétrique des pics afin de protéger le service DNS contre les tentatives excessives des clients. La firme de Redmond a présenté ses excuses aux clients concernés et a expliqué qu’il avait réparé le défaut de code afin de traiter efficacement toutes les requêtes dans le cache. Il a également amélioré la détection automatique et l’atténuation des modèles de trafic anormaux.

Cette dernière panne n’a pas été aussi longue que celle survenue encore sur Azure à la mi-mars. Celle-ci avait duré 14 heures et avait été attribuée à une erreur survenue dans la rotation des clés utilisées pour prendre en charge l’utilisation d’OpenID par Azure AD.   

Source : ZDNet.com

Leave a Reply

Your email address will not be published. Required fields are marked *