Github s’explique sur ses récentes pannes

Github s'explique sur ses récentes pannes

Le service de partage de code GitHub, propriété de Microsoft, apporte des améliorations à son cluster de base de données “MySQL1” après les pannes répétées de la semaine dernière qui ont affecté un grand nombre de ses 73 millions d’utilisateurs.

GitHub a admis que son service n’a pas tenu la route au cours de la semaine dernière en raison de problèmes affectant la “santé de notre base de données”, ce qui a entraîné une dégradation de l’expérience pour les utilisateurs.

“Nous savons que cela a un impact sur la productivité de beaucoup de nos clients et nous prenons cela très au sérieux”, a déclaré Keith Ballinger, vice-président senior de l’ingénierie de GitHub, dans un billet de blog.

“L’origine de nos problèmes au cours des dernières semaines est lié à la contention des ressources dans notre cluster mysql1, qui a eu un impact sur les performances d’un grand nombre de nos services et fonctionnalités pendant les périodes de charge maximale”, a-t-il expliqué.

Les pannes répétées de GitHub au cours de la semaine dernière ont donné lieu à de nombreuses plaintes sur les médias sociaux. Les rapports d’incidents sur downdetector.com ont connu un pic le 23 mars, la plupart d’entre eux concernant l’échec de demandes push et pull pour des projets.

Ballinger met en évidence quatre incidents qui ont duré entre deux et cinq heures chacun, les 16, 17, 22 et 23 mars.

Les pannes de GitHub sont un problème pour les développeurs, car les logiciels sont hébergés sur le service. GitHub est également important pour le fonctionnement des applications d’entreprise.

publicité

Des incidents à répétition

Ballinger explique que la panne du 16 mars à 14 h 09 UTC a duré 5 heures et 36 minutes. La base de données MySQL1 de GitHub était surchargée, ce qui a provoqué des pannes qui ont affecté les opérations git, les webhooks, les pull requests, les demandes API, les issues, les paquets GitHub, les Codespaces GitHub, les actions GitHub et les services GitHub Pages.

“L’incident semble être lié à un pic de charge combiné à une mauvaise performance des requêtes pour des ensembles de circonstances spécifiques”, note-t-il.

GitHub dispose de mécanismes de basculement, mais ceux-ci ont également échoué. Le 17 mars, une panne a débuté à 13 h 46 UTC et a duré deux heures et 28 minutes.

“Nous n’avons pas été en mesure d’identifier et de résoudre les problèmes de performance des requêtes avant ce pic, et nous avons décidé de procéder à un basculement proactif avant que le problème ne s’aggrave. Malheureusement, cela a provoqué un nouveau modèle de charge qui a introduit des problèmes de connectivité sur le nouveau serveur primaire en panne, et les applications ont été une fois de plus incapables de se connecter à mysql1 pendant que nous travaillions à réinitialiser ces connexions”, note-t-il.

D’autres pannes se sont produites les 22 et 23 mars, toutes deux ayant duré un peu moins de trois heures.

“Lors de ce troisième incident, nous avons activé le profilage de la mémoire sur notre proxy de base de données afin d’examiner de plus près les caractéristiques de performance pendant les pics de charge. Au même moment, les connexions des clients à mysql1 ont commencé à échouer, et nous avons dû à nouveau effectuer un basculement primaire afin de récupérer”, explique Ballinger à propos de l’incident du 22 mars.

Puis, le 23 mars, l’entreprise a réduit le trafic des webhooks et utilise ce contrôle pour atténuer les problèmes futurs lorsque sa base de données ne peut pas gérer les pics de charge.

Des correctifs pour le futur

L’entreprise, qui appartient à Microsoft, annonce avoir pris des mesures pour éviter que son cluster de base de données ne soit submergé par le trafic de ses services. Elle procède à un audit des modèles de charge, déploie plusieurs correctifs de performance pour la base de données concernée, déplace le trafic vers d’autres bases de données et tente de réduire les temps de basculement.

“Nous nous excusons sincèrement pour les impacts négatifs que ces perturbations ont causés. Nous comprenons l’impact que ces types de pannes ont sur les clients qui comptent sur nous pour accomplir leur travail tous les jours et nous nous engageons à faire des efforts pour nous assurer que nous pouvons gérer les perturbations et minimiser les temps d’arrêt”, a déclaré Ballinger.

GitHub divulguera plus de détails dans son rapport de disponibilité de mars dans quelques semaines.

Source : “ZDNet.com”

Leave a Reply

Discover more from Ultimatepocket

Subscribe now to keep reading and get access to the full archive.

Continue reading