Quand Excel met des bâtons dans les roues des généticiens

Quand Excel met des bâtons dans les roues des généticiens

Le logiciel Excel convertit automatiquement certains noms de gènes en dates et en nombres. Ce défaut peristant d’Excel n’est pas nouveau, mais ces erreurs continuent toujours de polluer les fichiers dans la littération scientifique, comme l’affirme un article publié en fin de semaine dernière dans la revue Nature.

Bien que les généticiens aient été mis en garde contre les problèmes liés aux feuilles de calcul, le document indique que 30% des articles publiés contiennent des noms de gènes tronqués en 2020 (soit 698 publications aut total), contre 20% en 2016.

Ces problèmes interviennent souvent lorsque la forme abrégée du nom d’un gène est reconnue à tort comme une date et corrigée automatiquement par Excel ou Google Sheets. Les symboles de gènes tels que SEPT2 et MARCH1 sont convertis par exemple par défaut en “2-Sep” et “1-Mar” respectivement. 

publicité

Impact sur les recherches

Le problème a été identifié pour la première fois en 2004, lorsque Barry Zeeberg, pharmacologue moléculaire à l’Institut national du cancer de Bethsda, aux Etats-Unis, et ses collègues ont mis en garde contre les modifications des symboles des gènes lors du traitement des données génomiques.

« Cela peut avoir un impact considérable sur vos recherches » affirme Auriol Purdie, biologiste moléculaire à l’université de Sydney, en Australie. Ayant travaillé avec des ensembles de données sur les micro-puces à ADN et la transcription des gènes pendant deux décennies, Auriol Purdie connaît bien les erreurs commises par inadvertance. Mais elle ajoute que le problème surprend souvent les débutants.

Si une feuille de calul modifie les noms des gènes, ces gènes sont perdus lorsque les données sont importées dans un logiciel d’analyse, ce qui peut fausser les résultats. Le programme « vous dira que vous avez perdu un certain nombre de vos gènes », dit la chercheuse, sans préciser lesquels exactement. Lorsqu’il s’agit d’un ensemble de données contenant 20 000 gènes, comparer manuellement les listes pour identifier les gènes perdus est une tâche ardue.

Vérifier à deux fois

Dans une étude de 2016, des chercheurs notaient qu’il n’existait pas à date de moyen de désactiver de manière permanente la conversion automatique en dates dans MS Excel et d’autres tableurs tels que LibreOffice Calc ou Apache OpenOffice Calc.

Pour contrer ces effets, le comité “HUGO” de nomenclature des gènes (HGNC) a décidé en 2017 de changer les symboles de gènes couramment affectés. Depuis lors, 27 abbréviations (appelées des “symboles”) de gènes ont été mises à jour, notamment SEPT4 (transformé en SEPTIN4) et MARCH1 (désormais MARCHF1).

Mais le récent article à ce sujet note qu’il est trop tôt pour constater des évolutions à la suite de ces changements de noms, étant donné que les ensembles de donnnées publiés contiennent souvent des listes de gènes périmées.

Mark Ziemann, chercheur du Baker IDI Heart and Diabetes Institute de Melbourne, en Australie, suggère qu’une autre solution consiste à éviter d’utiliser les feuilles de calcul tout court. Il souligne que les feuilles de calcul sont difficiles à auditer. « S’il y a un problème, il n’est pas facile de savoir où il s’est produit », car il n’y a pas d’enregistrement des étapes suivies par le logiciel, dit-il.

Certains chercheurs utilisent des langages de script, tels que Python et R. Ces langages ne corrigent pas automatiquement les symboles génétiques, et les chercheurs peuvent remonter à la source des erreurs, explique Mark Ziemann. Mais pour cela les utilisateurs doivent apprendre le langage informatique afin de pouvoir écrire du code pour analyser les données.

Leave a Reply

Discover more from Ultimatepocket

Subscribe now to keep reading and get access to the full archive.

Continue reading