Xilinx et Numenta annoncent une accélération spectaculaire sur les réseaux neuronaux. La fin des GPU Nvidia ?

Xilinx et Numenta annoncent une accélération spectaculaire sur les réseaux neuronaux. La fin des GPU Nvidia ?

Numenta, la société d’intelligence artificielle de la Silicon Valley fondée par Jeff Hawkins, le créateur du Palm Pilot, a réussi à accélérer de façon spectaculaire les réseaux neuronaux conventionnels en utilisant des dispositifs logiques programmables de Xilinx. C’est ce qu’a déclaré Victor Peng, PDG de Xilinx, à ZDNet.

xilinx-press-tour-may-2021-slide-12.jpg

Résultats des tests de référence proposés par Xilinx et Numenta pour les FPGA de Xilinx sur deux tâches standard de machine learning, Google Speech Commands et ImageNet. Dans les deux cas, l’axe Y est une mesure du débit, mots par seconde dans le cas de Google Speech Commands, et images par seconde dans le cas de ResNet-50 sur ImageNet, où la barre la plus haute est le meilleur score car il équivaut à un débit plus élevé. Source : Xilinx

Cette accélération offre des ordres de grandeur d’amélioration par rapport aux puces du poids lourd de l’industrie, Nvidia, affirme Xilinx dans des tests de référence. “Nous atteignons des facteurs d’amélioration, et nous battons le GPU”, a déclaré M. Peng, en parlant des tests de référence que la société a effectués avec Numenta. La mesure de la performance est le débit que les réseaux neuronaux entraînés sont capables d’atteindre.

publicité

Bientôt dans l’escarcelle d’AMD

Xilinx est en passe d’être rachetée par Advanced Micro Devices pour 34 milliards de dollars, une transaction annoncée en octobre dernier. L’opération a été approuvée par les actionnaires des deux sociétés, est en cours d’approbation par l’Union européenne et devrait être conclue d’ici la fin de l’année.

xilinx-victor-peng-on-zoom-may-2021.jpg

“Les gens parlent toujours de TOPS, TOPS, TOPS”, déclare Victor Peng, PDG de Xilinx, en faisant référence aux statistiques d’apprentissage automatique de type benchark. “Le TOPS ne parle que de la performance maximale de votre datapath”. Source : Xilinx

Les performances réalisées par Xilinx et Numenta ont été effectuées sur deux tests de référence courants des algorithmes d’apprentissage automatique.

Le premier était les Google Speech Commands, un jeu de données introduit par Google en 2017 pour tester la reconnaissance vocale. Le second était ResNet-50, un algorithme de reconnaissance d’images utilisé sur le populaire jeu de données ImageNet.

Au coeur de l’AI Engine de Xilinx

Un GPU Xilinx Alveo, a déclaré Peng, a été en mesure d’atteindre une augmentation de 100 fois de la quantité de débit en termes de mots reconnus correctement par seconde dans le test Google Speech, par rapport à un GPU Nvidia V100. Ces données avaient été divulguées par Numenta en novembre dernier.

Le test ImageNet sur ResNet-50 n’avait pas été divulgué auparavant par les deux parties. Dans ce cas, le débit en images reconnues par seconde a été multiplié par trois sur le composant de Xilinx, appelé Versal, par rapport à un composant T4 de Nvidia.

numenta-white-paper-sparsity-enables-50x-performance-acceleration-in-deep-learning-networks-page-20.jpg

Source : Numenta

Une partie des performances provient de ce que Xilinx appelle son “AI Engine”, ou AIE, qui est un ensemble de circuits reconfigurables (FPGA) capables d’accélérer les opérations de base des réseaux neuronaux, à savoir la multiplication des vecteurs et des matrices représentant respectivement les données d’entrée et les valeurs de poids.

Eliminer les valeurs nulles avant le calcul

Tout aussi important, dans les deux tests, la capacité d’IA des puces Xilinx a été assistée par les scientifiques de Numenta, dirigés par Subutai Ahmad, responsable de la recherche et de l’ingénierie de Numenta.

Numenta mène des recherches sur le cerveau, en particulier sur la partie la plus jeune du cerveau, le néocortex, qui exécute les fonctions cognitives de haut niveau chez les mammifères, notamment la perception visuelle. Le fondateur Hawkins a écrit sur la manière complexe dont le néocortex peut fonctionner, une manière très différente des formes conventionnelles d’apprentissage profond de l’IA.

Malgré cette différence, Numenta, sous la direction d’Ahmad, tente simultanément de transformer la connaissance du néocortex en algorithmes utilisables pour accélérer l’apprentissage profond (Deep Learning).

L’idée de Numenta a été d’éliminer certains nombres à valeur nulle des multiplications de matrices, une approche de plus en plus courante, appelée sparsité (sparsity). La suppression de la nécessité de calculer les valeurs nulles réduit la charge de calcul globale d’une puce.

numenta-white-paper-sparsity-enables-50x-performance-acceleration-in-deep-learning-networks-page-25.jpg

Comme Ahmad l’a expliqué à ZDNet en décembre, “Ce que nous avons fait avec le matériel, c’est tirer parti de la sparsité pour augmenter l’efficacité du calcul.”

“Dans les réseaux neuronaux, tout se passe avec ces produits matriciels, et si vous multipliez deux nombres ensemble, si l’un des deux nombres est zéro, vous pouvez sauter cette multiplication, car le résultat sera zéro, donc vous pouvez sauter un grand pourcentage des multiplications.”

Selon M. Ahmad, la mise en œuvre de la sparsité dans les puces de Xilinx signifie que “nous pouvons concevoir les circuits de manière à ce qu’ils soient adaptés aux réseaux épars.”

Non seulement un réseau clairsemé sur une puce personnalisée peut être plus rapide, mais il peut aussi être compact dans l’espace, a ajouté M. Ahmad, “ce qui nous permet d’en faire fonctionner un plus grand nombre sur une puce.”

“Nous pouvons faire fonctionner vingt de ces réseaux sur la puce, contre quatre réseaux denses, si bien qu’en multipliant le tout, la puce complète est cinquante fois plus rapide que ce que l’on pourrait obtenir avec un réseau dense.”

Les chiffres proposés par Peng sont une sorte de réponse aux chiffres généralement brandis par Nvidia, qui a tendance à dominer les mesures des performances des réseaux neuronaux.

Ces mesures de performance, dont les trillions d’opérations par seconde, ou TOPS, sont critiquées par certains comme ne représentant pas les tâches du monde réel, étant juste pour gonfler les résultats de Nvidia. “Les gens parlent toujours de TOPS, TOPS, TOPS”, a déclaré Peng. “Les TOPS ne parle que de la performance maximale de votre chemin de données”.

“Ce dont dépendent réellement les performances de l’application, ce n’est pas seulement le datapath, mais aussi la mémoire, et la façon dont la mémoire se déplace.”

Le fait de pouvoir personnaliser des éléments tels que les mécanismes de débit de la mémoire permet aux puces de Xilinx “d’obtenir de meilleures performances réelles et durables, même si nous ne remportons pas le pic théorique de TOPS”.

“Nous obtenons de très bons résultats dans le domaine de l’IA”, a déclaré M. Peng.

Le pari de Xilinx est que des produits tels que Versal remporteront des marchés parce qu’ils font plus que de l’IA. Bien que l’IA soit un ingrédient clé, les puces de Xilinx sont capables d’accélérer d’autres tâches, et pas seulement l’algèbre linéaire, ce que la société appelle “l’accélération de l’ensemble de l’application”.

“Même si nous ne sommes pas les grands gagnants de l’IA dans un cas particulier, bien que dans certains cas nous le soyons, nous pouvons toujours offrir une meilleure expérience utilisateur dans l’ensemble de l’application, a-t-il déclaré, et je pense que c’est ce qui compte.

Source : “ZDNet.com”

Leave a Reply

Your email address will not be published. Required fields are marked *