Le ministère des Armées déploie un moteur de recherche sur la Covid-19

Spread the love
Le ministère des Armées déploie un moteur de recherche sur la Covid-19

Comment rassembler au sein d’une seule et même source l’état des connaissances sur la Covid-19 ? C’est un problème auquel s’attelle depuis plusieurs mois le labo BI et Big Data du ministère des Armées. Dès l’annonce du premier confinement, ces spécialistes du big data et de l’intelligence artificielle ont monté une plateforme à destination des chercheurs pour restituer au sein d’un moteur de recherche l’ensemble des connaissances sur le coronavirus.

Le projet WaKED-Co (Watch of Knowledge on Emergent Diseases-COVID19) a vu le jour dans l’urgence du contexte sanitaire, en collaboration avec l’Institut de recherche biomédicale des armées et avec le secrétariat général pour l’administration, la direction générale de la santé et l’Armée de terre.

Le labo BI et Big Data est rattaché au secrétariat général pour l’administration (SGA), l’un des trois grands subordonnés de la ministre des Armées. Son ambition est d’« apporter de l’innovation et des nouvelles méthodes d’analyse et de valorisation de la donnée », indique Valérie Plier, manager du Labo BI et Big Data, à ZDNet. Il a été créé fin 2015 pour remettre la data « au cœur des outils d’aide à la décision ». Le labo a intégré depuis le 1er janvier 2020 la délégation à la transformation et à la performance ministérielle du SGA.

publicité

Un projet basé sur Elasticsearch

Au sein du labo sont constitués d’une part les projets dits “Data 360”, qui utilisent des technologies issues du monde du Big Data pour étudier des données métiers. De l’autre, les “Etudes” apportent des éléments de réponse aux décideurs à travers l’utilisation de méthodes qui émanent de la science des données, détaille Guillaume Vimont, expert IA, responsable Data Science et Big Data. A titre d’exemple, le laboratoire a travaillé récemment autour de l’impact de la Covid sur le recrutement de l’Armée de terre, ou encore dans le secteur de l’énergie, pour optimiser le processus de passation de marché.

L’équipe utilisait déjà depuis 2016 un composant délivré par Elastic, Elasticsearch et Kibana pour ses projets Data 360. La question ne s’est donc pas posée très longtemps pour WaKED-Co, qui repose sur le moteur de recherche Elasticsearch. « C’est une technologie que l’on a vu évoluer. De plus, elle est open source, relativement simple à mettre en place lorsque l’on veut commencer à faire du Big Data, et surtout c’est un outil qui peut être utilisé par des utilisateurs un peu lambda », note Guillaume Vimont.

Ce qui est certain, c’est que « la dimension du projet n’avait pas du tout été anticipée au départ », observe l’expert IA. Au printemps dernier, il était question de construire une bibliographie pour mener à bien des travaux de recherche. Mais l’équipe s’est rapidement aperçue de son potentiel. « On a orienté le choix déjà de développer sur des technos que les scientifiques n’utilisaient pas dans leur quotidien. C’est en testant la plateforme que les chercheurs ont vu la valeur et l’intérêt de ces outils. De manière itérative, on a par la suite réalisé un certain nombre de développements pour aller plus loin », raconte Guillaume Vimont.

La plateforme a finalement pris une portée interministérielle au bout de quelques semaines de développement, en devenant un module à part entière de la plateforme covid-19.sante.gouv.fr. Elle a d’ailleurs permis d’attirer de nouveaux contributeurs au projet, comme le ministère de la Santé, qui a apporté des moyens humains, entre autres.

Machine learning et système d’alerte

WaKED-Co recense plus de 500 000 publications et les résultats de près de 400 essais cliniques, avec plus de 16 millions de patients. Pour parvenir à cette taille, il a fallu mettre en place des méthodes d’extraction de contenu scientifique. Cela s’est fait par le biais de briques successives. « Au début, le challenge était de réunir l’ensemble des sources dans un seul et même endroit, à l’instar de Google Scholar, mais dans un endroit hébergé en Europe ou en France. Pour ce faire, on a travaillé sur la mise en place de robots (API ou flux proposés par les éditeurs) qui vont pouvoir aller chercher les informations avec l’autorisation des éditeurs des publications scientifiques », indique Guillaume Vimont.

Cette première phase d’extraction des métadonnées (date, titre, résumé de l’article, nom de l’auteur, etc.) ne fait pas appel à la data science. Les données collectées permettent de construire directement des graphiques et des séries temporelles pour montrer, par exemple, une évolution du nombre de publications sur une fenêtre de temps donnée. Des mots clés ont également pu être extraits pour mettre en image des nuages de mots. « Cela a permis aux chercheurs d’adapter leurs recherches en fonction des mots clés », explique Guillaume Vimont.

Les chercheurs peuvent accéder à des nuages de mots pour suivre l’évolution du champ lexical autour du virus.
Source : plateforme WaKED-Co.

C’est ensuite que les phases un peu plus avancées de recherche ont pu démarrer à l’aide de la data science. « Nous avons pu par exemple extraire l’origine de l’auteur en fonction d’une affiliation. Et grâce à cela, projeter certaines informations sur des cartes et filtrer les données en fonction de zones géographiques bien précises. »

L’équipe technique souhaite maintenant aller plus loin et travailler sur l’extraction d’entités nommées. « En analysant les publications, on va être en mesure de détecter un symptôme, une pathologie, des molécules ou encore un organe. Toutes ces choses vont être structurées d’une manière à construire des indicateurs. Dans le domaine du machine learning, on sera aussi bientôt en capacité de mettre en place des alertes pour que les chercheurs puissent tout de suite être prévenus par la détection d’un nouveau symptôme ou d’un nouvel organe touché », s’enthousiasme Guillaume Vimont.

« La plateforme apporte une autre approche de la recherche, qui va au-delà de la méthode sémantique tout en suggérant d’autres axes de recherche », complète Valérie Plier.

La Covid-19 et au-delà

Maintenant que la plateforme peut potentiellement atteindre un degré de finesse satisfaisant grâce à l’IA, pas question de limiter ses capacités au seul terrain de recherche de la Covid-19. L’équipe du labo s’est très rapidement intéressée aux publications qui font référence à d’autres virus dans le domaine de la santé. « Des utilisateurs travaillent sur les sujets autour de la Covid, et en parallèle travaillent sur d’autres maladies, comme la rougeole ou Ebola. La plateforme est en capacité de faire des liens entre ces maladies, parce que dans les publications scientifiques il peut très bien y avoir des références sur plusieurs maladies en même temps », précise Guillaume Vimont.

Un tel outil pourrait également servir à d’autres domaines de recherches que le médical. Une extension de WaKED-Co a notamment pour but de récupérer des données orientées vers les sciences de l’informatique et des mathématiques. Un projet en cours de construction, baptisé “Waked-IA”, va permettre de faire de la veille dans le domaine des sciences informatiques autour des derniers algorithmes tendances et des approches émergentes pour devenir un « outil de sourcing en interne ». Les porteurs du projet entendent par ailleurs tirer profit des communautés open source et du partage de connaissances dans le domaine du machine learning pour intégrer ce qui se fait de mieux sur la plateforme.

En passant par une solution SaaS livrée par Elastic, la plateforme disposait dans un premier temps d’un hébergement offert. Pour assurer la continuité du projet, l’équipe a dû trouver une source de financement. C’est l’agence de l’innovation de défense (AID) qui apporte son soutien financier, d’un montant de 15 000 euros. « Cela nous offre à peu près un an de capacité en termes d’hébergement et de stockage », estime Guillaume Vimont. Valérie Plier assure, en outre, qu’il est question de basculer prochainement vers un centre de données entièrement souverain.

Leave a Reply