Comment se présente l’IA du métaverse tant vanté par Facebook
Pour fonctionner dans la réalité augmentée et virtuelle, Facebook estime que l’intelligence artificielle devra développer une “perspective égocentrique”. À cette fin, la société vient de présenter son projet EGO4D, un ensemble de données comprenant 2 792 heures de vidéo à la première personne, ainsi qu’un ensemble de tests de référence pour les réseaux neuronaux, conçus pour encourager le développement d’une IA mieux à même de comprendre ce que c’est que de se déplacer dans des mondes virtuels du point de vue de la première personne.
Le projet est le fruit d’une collaboration entre Facebook avec des chercheurs de treize institutions de recherche, dont des établissements universitaires et des laboratoires de recherche. Les détails de ce travail sont exposés dans un document rédigé par Kristen Grauman, de Facebook, intitulé “Ego4D : Around the World in 2.8K Hours of Egocentric Video”. Point de départ de ce projet : l’idée que cet ensemble de données incitera les chercheurs à développer des réseaux neuronaux qui excellent dans l’exécution de tâches du point de vue de la première personne, de la même manière que les grands ensembles de données tels qu’ImageNet ont permis aux programmes d’IA existants d’adopter une perspective de “spectateur”.
Le but de la perception égocentrique est d’essayer de résoudre les problèmes qu’un réseau neuronal rencontre dans des tâches de base telles que la reconnaissance d’images lorsque le point de vue d’une image passe de la troisième à la première personne. La plupart des systèmes de reconnaissance d’images qui se débrouillent bien lorsqu’ils détectent des objets vus de loin ont un taux d’échec élevé lorsque l’objet est présenté de la manière dont il serait vu du point de vue de la personne qui le rencontre.
Nourrir le métaverse de Facebook
L’initiative EGO4D vise spécifiquement à développer le métaverse, le monde à venir des réseaux sociaux immersifs dont Mark Zuckerberg, PDG de Facebook, a abondamment parlé ces derniers mois. “Ces repères catalyseront la recherche sur les éléments de base nécessaires au développement d’assistants d’IA plus intelligents, capables de comprendre et d’interagir non seulement dans le monde réel, mais aussi dans le métaverse, où la réalité physique, la réalité augmentée et la réalité virtuelle sont réunies dans un même espace”, fait-on savoir du côté de Facebook.
Les 2 792 heures de vidéo ont été recueillies par le personnel de Facebook à l’aide de diverses caméras. Le casque de réalité augmentée Vuzix Blade fabriqué par Vuzix n’en est qu’un exemple, les autres étant GoPro, Pupil Labs, ZShades et Wee-view. Le but de mélanger différents ensembles est d’éviter l'”over-fitting”, écrivent Kristen Grauman et ses collaborateurs, le phénomène qui se produit lorsqu’un réseau neuronal se contente de mémoriser des images d’informations vidéo, au lieu d’être réglé pour déduire des similitudes à travers les différences.
Facebook a déclaré que la vidéo a été “capturée par 750 porteurs de caméra uniques dans 73 endroits du monde et 9 pays différents”. Une partie de cette vidéo a été réalisée par des employés de Facebook sur le campus de la société, une autre par les collaborateurs de l’université. Le “4D” du nom correspond à l’aspect temporel de la vidéo. Le personnel de Facebook a passé 250 000 heures à regarder les vidéos et à fournir des narrations orales résumant ce qui se passe dans les vidéos, avec un horodatage.
Un ensemble très dense de données
Facebook affirme que les narrations “avoir reçu en moyenne 13,2 phrases par minute de vidéo, soit un total de 3,85 millions de phrases”. Au total, les narrations décrivent la vidéo Ego4D en utilisant 1 772 verbes uniques (activités) et 4 336 noms uniques (objets).”
L’ensemble de données est destiné à être utilisé pour développer des réseaux neuronaux performants sur une variété de nouveaux tests de référence. À cette fin, Kristen Grauman et ses collaborateurs décrivent dans l’article plusieurs nouveaux tests qu’ils ont élaborés et qui exigent qu’un réseau neuronal soit capable de produire une réponse à des tâches passées, comme le rappel, à des tâches présentes, comme la catégorisation d’une activité, ou à des prévisions futures, comme la description du résultat d’une action.
Par exemple, une tâche d’un réseau neuronal peut consister à répondre à une requête en langage naturel qui demande au programme de faire correspondre le contenu de la requête à une image vidéo. Par exemple, si l’on demande à l’ordinateur : “Quand ai-je lu à mes enfants ?”, l’ordinateur devra trouver la scène où le porteur de la caméra fait la lecture à ses enfants. La tâche est étiquetée par le personnel d’annotation humain, qui reçoit une liste préformatée d’étiquettes et doit les attribuer aux clips. Facebook a déclaré avoir 74 000 requêtes attribuées de cette manière à 800 heures de vidéo.
Dans un futur test de prédiction, l’ordinateur pourrait devoir prédire avec quel objet dans une image vidéo le porteur de la caméra interagira ensuite. Ainsi, s’il est à une table en train de rouler de la pâte, la prochaine action prédite pourrait être de saisir une boule de pâte sur la table. Le programme effectue la prédiction en sélectionnant l’un des verbes d’une liste prédéfinie qui ont été attachés aux images vidéo par le personnel d’annotation, et en y ajoutant une estimation de temps, ce qui donne “prendre la pâte dans 0,8 seconde”. Les ensembles de données pour Ego4D seront mis à disposition sur Github le mois prochain, a indiqué Facebook. Les utilisateurs devront signer un accord d’utilisation des données.
Source : ZDNet.com