Cinq conseils pour améliorer la fiabilité des logiciels

 Cinq conseils pour améliorer la fiabilité des logiciels

À une époque où le DevOps est devenu une nécessité et où personne ne peut se permettre d’avoir des pannes ou même des ralentissements, la pratique de l’ingénierie de la fiabilité de sites (SRE) est devenue incontournable. Les compétences en SRE, qui relient les opérations et le développement, sont très demandés.

Selon une récente étude publiée par Constellation Research, il existe une différence majeure entre les entreprises dotées d’une organisation SRE performante et celles qui n’ont pas encore adopté cette pratique. “Les retardataires sont à un incident majeur près d’une catastrophe”, déclare Andy Thurai, analyste chez Constellation et auteur du rapport. “Avoir une organisation DevOps mature n’est tout simplement pas suffisant pour gagner dans une économie numérique. Une organisation SRE mature qui adopte une approche d’ingénierie logicielle des opérations informatiques est nécessaire pour assurer la fiabilité et la résilience de la vélocité du code qui émane des organisations DevOps matures.”

publicité

La culture et l’état d’esprit font tout. “La mentalité de l’informatique comme centre de coûts, ou la pensée que vos systèmes sont invincibles, doit changer”, dit Thurai. “L’idée même de SRE est de rendre les logiciels fiables et de se préparer à des temps d’arrêt non planifiés. C’est une chose d’introduire de nouveaux outils et des techniques agiles et allégées, mais si la culture de l’organisation est inefficace, les efforts seront vains.”

Pour développer une pratique SRE performante, Thurai propose les recommandations suivantes :

  • Ouvrir l’organisation: “Les organisations doivent favoriser la collaboration au sein d’une équipe, l’élimination des silos, un environnement sûr où les gens sont libres de soulever des préoccupations et des problèmes, une approche d’amélioration continue, l’autonomie des équipes et une approche empathique de la négociation en équipe”, exhorte Thurai.
  • L’utilisation de l’intelligence artificielle et de l’apprentissage automatique réduit beaucoup de bruit et améliore le rapport bruit/signal. Éviter la fatigue des alertes permet de réduire le labeur et l’épuisement en permettant aux professionnels SRE de ne poursuivre que les incidents majeurs et de consacrer le reste de leur temps de manière productive aux efforts de codage et d’automatisation.”
  • Investir dans les bons outils : Les outils d’AIOps, d’observabilité, de gestion des incidents et d’automatisation informatique peuvent jouer un rôle essentiel pour stimuler un effort SRE. “En matière de gestion des crises et des incidents à l’ère du cloud/numérique, l’espoir n’est pas une stratégie”, déclare Thurai. Investir dans les bons outils “est essentiel pour permettre aux organisations numériquement efficaces de survivre et de prospérer.”
  • Automatiser l’infrastructure. “L’automatisation de l’infrastructure est une nécessité pour réduire ou éliminer le labeur des SRE. En plus de la mise à l’échelle ascendante/descendante en fonction de la demande, de l’orchestration Kubernetes et de la gestion des clusters, les organisations peuvent également utiliser l’automatisation pendant un incident pour automatiser des corrections plus simples sans avoir besoin de faire intervenir un ingénieur.”
  • Embaucher et former le personnel adéquat: “Le mélange initial de personnel doit être orienté vers l’identification des incidents, l’escalade et les corrections manuelles”, conseille Thurai. Au fur et à mesure que les choses progressent, “le labeur devrait finir par diminuer et les membres de l’équipe SRE devraient pouvoir se concentrer sur l’automatisation ou sur d’autres tâches productives plutôt que sur l’escalade et la recherche manuelle de tickets d’incident.”

Source : “ZDNet.com”

Leave a Reply

Your email address will not be published. Required fields are marked *