Comment Meta détecte les corruptions silencieuses de données dans ses centres de données

Comment Meta détecte les corruptions silencieuses de données dans ses centres de données

Image : Une des centres de données de Facebook à Prineville, dans l’Oregon (Meta)

Après avoir testé pendant des années différentes approches pour détecter les corruptions silencieuses de données, Meta a exposé son approche pour résoudre le problème matériel.

Les corruptions silencieuses sont des erreurs de données qui ne laissent aucun enregistrement ou trace dans les journaux du système. Les sources de ces corruptions incluent les dépendances des chemins de données, les variations de température et l’âge, entre autres facteurs liés au silicium. Comme ces erreurs de données sont silencieuses, elles peuvent rester indétectées dans les charges de travail et se propager dans plusieurs services.

L’erreur de données peut affecter la mémoire, le stockage, la mise en réseau, ainsi que les unités centrales de l’ordinateur et provoquer des pertes de données.

Les ingénieurs de Meta ont commencé à effectuer des tests il y a trois ans car ils avaient du mal à détecter les corruptions silencieuses de données une fois que les composants avaient déjà été intégrés dans l’un de ses parcs de centres de données de production. « Nous avons eu besoin de nouvelles approches de détection pour préserver la santé des applications et la résilience des parcs en détectant les corruptions silencieuses et en les atténuant à l’échelle », a déclaré Harish Dattatraya Dixit, ingénieur chez Meta, dans un billet de blog.

publicité

Deux types de tests utilisés

D’après les tests, Meta a constaté que sa méthode la plus efficace consiste à utiliser à la fois des tests hors production et des tests d’ondulation (“ripple testing” en anglais).

Le test hors production est une méthode de détection qui se produit lorsque les machines subissent un événement de maintenance tel que le redémarrage du système, les mises à niveau du noyau et le provisionnement des hôtes, entre autres. Ce type de test s’appuie sur ces événements pour permettre aux tests d’avoir des durées d’exécution plus longues, permettant ainsi une « nature plus intrusive de la détection ».

Quant au test d’ondulation, il consiste à effectuer une détection silencieuse des erreurs en même temps que les charges de travail sont actives. Cela se fait par le biais de tests fantômes avec des charges de travail et en injectant des modèles de bits avec des résultats attendus par intermittence dans les flottes et les charges de travail, ce qui, selon Meta, permet une détection plus rapide des corruptions silencieuses de données que les tests hors production.

Ce type de test plus rapide se répercute sur l’infrastructure de Meta, ce qui permet d’obtenir des temps de test 1 000 fois inférieurs aux temps d’exécution des tests hors production.

Meta recommande les deux approches combinées

Les ingénieurs de Meta ont toutefois observé que les tests d’ondulation ne pouvaient détecter que 70 % des corruptions de données de la flotte, bien qu’ils aient été capables de les détecter en 15 jours. En comparaison, les tests hors production ont pris six mois pour détecter les mêmes corruptions ainsi que d’autres.

En expliquant ces avantages et ces inconvénients, Harish Dattatraya Dixit a recommandé aux organisations disposant d’une infrastructure à grande échelle d’utiliser les deux approches pour détecter les corruptions silencieuses de données. « Nous recommandons d’utiliser et de déployer les deux dans un parc à grande échelle », a déclaré Harish Dattatraya Dixit.

« Bien que la détection des corruptions silencieuses de données soit un problème difficile pour les infrastructures à grande échelle, des années de tests nous ont montré que le test hors production et le test d’ondulation peuvent fournir une solution originale pour détecter les corruptions à l’échelle aussi rapidement que possible. »

Lorsque les ingénieurs de Meta ont utilisé les deux tests pour détecter les corruptions silencieuses, ils ont constaté qu’elles pouvaient toutes finalement être détectées. Selon Meta, 70 % d’entre elles ont été détectés par le test d’ondulation au bout de 15 jours, les tests hors production ont permis de détecter jusqu’à 23 % des corruptions silencieuses restantes en six mois, tandis que les 7 % restantes ont été détectées par des instances d’ondulation répétées dans ses parcs de centres de données.

Afin d’encourager l’innovation dans la détection de ce type de problème, Meta a également annoncé qu’elle offrirait cinq subventions, chacune d’une valeur d’environ 50 000 dollars, pour que les universités créent des propositions de recherche dans ce domaine.

Source : ZDNet.com

Leave a Reply

Discover more from Ultimatepocket

Subscribe now to keep reading and get access to the full archive.

Continue reading