L’intelligence artificielle de Meta peut-elle lire sur les lèvres ?

Spread the love
L'intelligence artificielle de Meta peut-elle lire sur les lèvres ?

C’est un fait largement connu : les gens comprennent les discours non seulement en écoutant avec leurs oreilles, mais aussi en captant des indices à partir des mouvements de lèvres qu’ils observent chez les locuteurs. De même, la combinaison de l’observation visuelle et de l’audio pourrait aider un ordinateur à mieux analyser la parole humaine. Les programmes informatiques peuvent lire sur les lèvres, en un sens, bien que ce soit une tâche laborieuse à réaliser.

Les travaux récents de Meta, la société mère de Facebook, Instagram et WhatsApp, suggèrent une méthode plus efficace pour parvenir, un jour, à faire en sorte que les ordinateurs puissent lire sur les lèvres.

Vendredi dernier, les chercheurs en intelligence artificielle (IA) de Meta ont publié un rapport dans lequel ils ont réussi à réduire considérablement l’effort nécessaire pour concevoir un logiciel capable d’analyser les mots à partir des mouvements des lèvres des orateurs dans des vidéos enregistrées. Ces travaux ont également permis d’utiliser la technologie de lecture labiale pour améliorer de manière significative la reconnaissance vocale dans des environnements bruyants.

Le programme est « 75 % plus précis que les meilleurs systèmes de reconnaissance vocale audios et visuels (qui utilisent à la fois le son et les images de l’orateur pour comprendre ce qu’il dit) », indiquent les auteurs.

publicité

La voie de l’autosupervision

Bien sûr, on pense ici au metaverse. Non seulement le programme pourrait être utilisé pour la traduction instantanée, mais il pourrait aussi, un jour, « aider à générer des mouvements de lèvres réalistes dans les avatars de réalité virtuelle, afin d’offrir un véritable sentiment de présence – ce sentiment d’être là avec quelqu’un, même s’il est à l’autre bout du monde ».

Ces travaux représentent une avancée sur deux plans. La première est l’apprentissage autosupervisé, qui évite des indices spécifiques, tels que les transcriptions de texte, et laisse le programme deviner spontanément la structure des données. L’autre axe de développement est celui des réseaux neuronaux multimodaux, qui combinent des données de nature différente, de manière à ce qu’elles se renforcent mutuellement.

Le résultat, appelé AV-HuBERT, le “AV” signifiant audiovisuel, le “Hu” signifiant “unité cachée”, combine des signaux auditifs et visuels pour détecter des mots à partir des mouvements des lèvres. L’auteur principal, Bowen Shi, et ses collègues Wei-Ning Hsu, Kushal Lakhotia et Abdelrahman Mohamed, de Facebook, ont expliqué leurs travaux dans l’article intitulé en anglais “Learning Audio-Visual Speech Representation By Masked Multimodal Cluster Prediction”. Les auteurs ont également rédigé un billet de blog, sans doute plus digeste.

Comme l’expliquent les chercheurs, les travaux précédents étaient également multimodaux, combinant des données visuelles, des images vidéo, avec des données audio, des bribes de forme d’onde, afin d’entraîner un réseau neuronal à prédire leur correspondance. Mais ces programmes avaient tendance à s’appuyer sur des indices supplémentaires préparés à l’avance, comme la transcription de vidéos de locuteurs en phrases de texte qui servaient ensuite d’étiquettes. Les nouveaux travaux empruntent la voie de l’autosupervision, en assemblant spontanément des modèles sans structure externe.

« Il s’agit du premier système à modéliser conjointement la parole et les mouvements des lèvres à partir de données non étiquetées – des vidéos brutes qui n’ont pas encore été transcrites », écrivent les auteurs dans leur billet de blog.

Approche fusionnée

Le programme AV-HuBERT qu’ils ont inventé s’appuie sur un programme uniquement audio appelé HuBERT et présenté l’année dernière par Wei-NingHsu et ses collègues. Comme son nom l’indique, HuBERT utilise l’approche du réseau neuronal bidirectionnel Transformer développée chez Google en 2018.

En “masquant” des parties d’un enregistrement audio, c’est-à-dire en laissant de côté des sections d’une forme d’onde audio, le réseau neuronal HuBERT, dans sa phase de formation, devait reconstruire les morceaux d’audio qui vont les uns avec les autres. Désormais, dans AV-HuBERT, les chercheurs veulent “fusionner” des morceaux d’audio avec des images de vidéos de personnes qui parlent. La phase de formation du réseau neuronal se déroule essentiellement en deux étapes. Tout d’abord, comme dans le cas du HuBERT original, ils utilisent l’approche de l’attention pour masquer l’audio, puis regroupent les formes d’ondes audio en clusters, c’est-à-dire en groupes d’exemples qui sont d’une certaine manière proches les uns des autres par leurs attributs.

Ces groupements deviennent alors une cible pour la deuxième étape du réseau neuronal. La partie multimodale d’AV-HuBERT masque simultanément les images des lèvres des locuteurs et la forme d’onde audio, puis tente de les faire correspondre aux clusters établis dans la première vague. De cette façon, le programme calcule quelles configurations de lèvres correspondent à quelles formes d’onde audio, “apprenant” ainsi la corrélation entre le mouvement de la bouche et la sortie audio.

Il s’agit, en fait, d’une approche autosupervisée qui détermine la structure sans indices explicites. La fusion signifie que l’attention portée sur les images et celle portée sur les formes d’onde audio se renforcent mutuellement pour produire des clusters supérieurs à ce que l’un ou l’autre pourrait produire seul. Ces clusters deviennent la “cible” de tâches ultérieures, telles que la lecture labiale et la reconnaissance vocale.

Comme l’expliquent les auteurs, « AV-HuBERT capture simultanément des informations linguistiques et phonétiques pour les régions non masquées à partir des flux de mouvements des lèvres et des flux audio dans ses représentations latentes, puis encode leurs relations temporelles à longue portée pour résoudre la tâche de prédiction masquée ».

Lip Reading Sentences 3 Languages

Une fois que AV-HuBERT a été autoentraîné de cette manière, les auteurs procèdent à un réglage fin en introduisant une vidéo étiquetée réelle, des heures de vidéo, avec des transcriptions formelles qui indiquent à la machine où se trouvent les mots dans la vidéo.

Le principal ensemble de données utilisé pour tester et entraîner le programme AV-HuBERT est LRS3, développé en 2018 par Triantafyllos Afouras et ses collègues à Oxford, qui est « le plus grand ensemble de données de lecture labiale au niveau de la phrase disponible publiquement à ce jour. Il se compose de plus de 400 heures de vidéo, extraites de TED & TEDx talks en anglais depuis YouTube ».

Grâce à l’entraînement autosupervisé de AV-HuBERT, il peut prédire les mots à partir des vidéos des orateurs plus efficacement que toutes les tentatives précédentes, écrivent les chercheurs. Mais, plus important que le score brut, c’est la réduction considérable de la quantité de données nécessaires pour entraîner le programme. « AV-HuBERT atteint l’état de l’art en utilisant 433 heures de transcription de texte, soit deux ordres de grandeur de moins que les 31 000 heures de données étiquetées utilisées dans la meilleure approche précédente », écrivent-ils.

Avec beaucoup moins de données requises, il est possible d’effectuer des tâches de lecture labiale sur des langues qui ont beaucoup moins de données que d’autres, ce qu’on appelle les langues à faibles ressources. (Pensez aux langues autres que l’anglais, le français et l’allemand, par exemple). Les auteurs font remarquer que « dans le cadre de travaux futurs, AV-HuBERT peut être appliqué à la lecture labiale multilingue dans des langues à faibles ressources » et que la même « approche peut être étendue à d’autres applications de la représentation visuelle de la parole, telles que l’amélioration et la génération de la parole ».

Quid du bruit ambiant ?

Les chercheurs ont ajouté à leurs résultats un deuxième article publié la semaine dernière décrivant l’utilisation de AV-HuBERT pour la reconnaissance automatique de la parole. Ici, l’accent est mis sur la manière d’améliorer l’analyse syntaxique de la parole dans un environnement bruyant.

La reconnaissance vocale « déployée dans des scénarios de réunion est sujette au bruit des conversations, tandis qu’une reconnaissance vocale utilisée dans un environnement domestique rencontre naturellement de la musique, de la cuisine ou des bruits d’aspirateur ». Leur question est de savoir si AV-HuBERT peut surmonter ces bruits ambiants.

Les chercheurs mélangent des clips sonores avec les échantillons d’images vidéo et de formes d’onde audio d’AV-HuBERT pendant la formation. Le résultat, écrivent-ils, est que le programme devient bon pour contourner le bruit. A tel point qu’AV-HuBERT permet de réduire de 50 % le taux d’erreurs de mots, c’est-à-dire la proportion de mots erronés, par rapport aux systèmes de reconnaissance vocale précédents. « Nos travaux futurs comprennent l’application de la reconnaissance vocale audiovisuelle dans des contextes réels de ressources limitées et multilingues », écrivent-ils.

L’idée selon laquelle l’IA est désormais meilleure que l’humain pour lire sur les lèvres a fait l’objet de travaux antérieurs sur l’IA ces dernières années. Le taux d’erreur de mots dans la meilleure performance d’AV-HuBERT est, en effet, bien meilleur que celui des lecteurs sur les lèvres humains professionnels, soit 26,9 %. Apparemment, le meilleur résultat obtenu par des personnes capables de lire sur les lèvres n’est que de 40 % (ils se trompent quatre fois sur dix). De toute évidence, pour des activités telles que la transcription de conférences après coup, cela pourrait donner un coup de fouet aux logiciels.

Dans la pratique, cependant, il y a un gros bémol. Il s’agit en fait de “simuler” la lecture sur les lèvres. Les résultats d’AV-HuBERT sont le résultat d’un test sur une vidéo enregistrée, et non d’une vraie conversation en direct.

Source : ZDNet.com

Leave a Reply