ZD Tech : Ce nouveau format de fichier réduit par 30 le temps d’analyse de l’ADN

ZD Tech : Ce nouveau format de fichier réduit par 30 le temps d'analyse de l'ADN

Bonjour à tous et bienvenue dans le ZD Tech, le podcast quotidien de la rédaction de ZDNet. Je m’appelle Guillaume Serries et aujourd’hui je vais vous expliquer pourquoi un nouveau format de fichier permet de réduire le temps d’analyse de l’ADN. Oui, nous allons parler de calculs simultanés.

Le traitement des données produites par le séquençage de l’ADN est chronophage. Comptez en général deux semaines. Mais voici qu’un nouveau format de données permet de passer à une demi-journée de traitement. Comment et pourquoi ? Et bien, écoutez ce qui suit.

Ce nouveau format de fichier informatique accélère l’analyse du séquençage par nanopores. Et allez ! Encore un terme incompréhensible.

Voilà, je vous explique ce qu’est le séquençage nanopore. Cette méthode de séquençage de l’ADN est utilisée depuis 1995. Pour ce faire, les laborantins utilisent des trous d’un diamètre de l’ordre du nanomètre, d’où le terme nanopore. Et le séquençage par nanopore permet d’améliorer les traitements de patients atteints de cancer, par exemple. Problème, le processus d’analyse du séquençage prend beaucoup de temps.

publicité

SLOW5 vs FAST5

Mais voici que des chercheurs australiens ont mis au point un nouveau format de fichier informatique qui permet d’accélérer l’analyse du séquençage. Oui, un format de fichier qui a une incidence sur le temps de traitement.

Les résultats de ces chercheurs ont été publiés dans la revue Nature Biotechnology. Le format SLOW5 permet de traiter le séquençage de l’ADN par nanopore « plus de 30 fois plus vite » que le format de fichier précédent. Ne riez pas, ce format de fichier un peu lent s’appelle lui FAST5.

Jusqu’à présent, les données produites par le processus de séquençage d’ADN sont systématiquement enregistrées dans des formats de fichiers FAST5.

Le résultat d’un séquençage d’ADN est contenu dans un fichier informatique d’un volume d’environ 1,3 téraoctet. Soit l’équivalent de 650 heures de vidéos haute définition.

Et pour traiter plus d’un teraoctet de données, il faut environ deux semaines aux ordinateurs. Avec le format de fichier SLOW5, on passe à une demi-journée pour le même volume d’informations.

Et voici pourquoi.

Calcul parallèle

Contrairement au format FAST5, le format SLOW5 permet le calcul parallèle. C’est-à-dire que plusieurs processeurs peuvent exécuter simultanément de multiples analyses à partir du même fichier. D’où ce gain de temps très conséquent.

« C’est comme si vous essayiez de creuser un très grand trou avec 10 personnes », explique un chercheur. « S’il n’y a qu’une seule pelle, vous devez la partager. C’est comme ça que ça se passe avec FAST5. »

« Mais avec SLOW5 » poursuit-il, « chacun a sa propre pelle, et ils peuvent tous creuser en même temps et faire le travail beaucoup plus rapidement ».

Le format FAST5 est lent parce que les données ne sont pas accessibles en parallèle. Il est basé sur le format de données hiérarchique qui a été conçu dans les années 1990 pour fonctionner sur des machines qui, à l’époque, n’avaient qu’un seul processeur.

Les machines modernes, elles, embarquent plusieurs processeurs. Inventer un format de fichier qui permet de tirer parti de la simultanéité de la puissance de calcul de ces machines.

Retrouvez le ZD Tech sur les plateformes de podcast

Leave a Reply

Discover more from Ultimatepocket

Subscribe now to keep reading and get access to the full archive.

Continue reading