
Sous le capot des processeurs Intel Xeon de 5e génération : les AI Engines
Deux grandes questions se posent aujourd’hui autour de
l’intelligence artificielle : comment et pour quoi faire ? Autrement
dit, l’infrastructure et l’usage.
La question de l’usage est évidemment extrêmement vaste et
dépendra de chaque organisation. Sur celle de l’infrastructure en revanche, on
peut commencer à établir un cadre de référence pouvant convenir à beaucoup de
sociétés. Et ce n’est pas nécessairement celui qu’on croit.
Dès lors qu’on parle d’infrastructure d’IA, trois lettres
viennent en effet assez rapidement à l’esprit : GPU. Les cartes graphiques
sont effectivement des composants importants dans ce domaine et répondent à des
besoins spécifiques. Néanmoins, si l’on observe de plus près ce qu’il se passe
dans les datacenters dans le monde, une autre tendance se dégage : 65 %
des processus d’inférence IA dans les centres de données s’appuient sur des processeurs
Intel Xeon.1
Des moteurs d’IA embarqués dans le CPU
Pour comprendre cette pertinence du CPU, il faut regarder
d’un peu plus près ce que contiennent les processeurs Intel Xeon de 5e
génération.
Le numérique est aujourd’hui au centre d’une multitude de
processus dans les entreprises et beaucoup d’activités reposent sur une
exécution performante des applications sous-jacentes. Les charges de travail au
sein d’une infrastructure informatique sont donc extrêmement diversifiées, et
les processeurs Intel Xeon sont conçus pour prendre en charge cette
hétérogénéité. Pour cela, Intel a intégré aux processeurs Xeon Scalable des
« Accelerator Engines ».
Ces moteurs d’accélération sont des composants et fonctions spécialement
conçus pour offrir des performances et des avantages sur les charges de travail
qui connaissent la plus forte croissance dans le monde professionnel ; et
l’intelligence artificielle en fait évidemment partie. On trouve donc parmi les
accélérateurs des « AI Engines » qui peuvent permettre aux
entreprises d’explorer le potentiel de l’IA pour leur business tout en se
reposant sur leur architecture Xeon existante.
Concrètement, ces accélérateurs d’IA sont au nombre de
deux : Intel Advanced Matrix Extensions et Intel Advanced Vector
Extensions 512, ou plus simplement, AMX et AVX-512.
publicité
Intel AMX pour le Deep Learning
Commençons par le premier. AMX est un bloc matériel dédié
présent directement sur les processeurs Intel Xeon Scalable et qui permet de
prendre en charge et d’accélérer les processus d’entraînement et d’inférence du
Deep Learning, ce qui permet d’éviter de transférer les traitements liés à l’IA
sur un accélérateur externe, et ainsi de supprimer des surcoûts et la
complexité liés à cet accélérateur externe dans différents cas.
D’autre part, les processeurs Intel Xeon Scalable de 5e génération dotés d’AMX BF16 offrent jusqu’à 14 fois plus de performance d’inférence pour la détection d’objets en temps réel (SSD-ResNet34) par rapport aux CPU Intel Xeon de 3e génération 2, et jusqu’à 9,9 fois plus de performance d’inférence pour le traitement du langage naturel (BERT-large), également comparé aux Xeon de 3e génération. 3
Ce qui donne donc également un début de réponse à la question de l’usage, AMX apportant une amélioration significative dans les systèmes de recommandation ou les applications de traitement du langage naturel (NLP), d’IA générative ou encore de vision par ordinateur. Globalement, avec AMX, les processeurs Intel Xeon de 5e génération conviennent aux grands modèles de langage (LLM) sollicitant moins de 20 milliards de paramètres, ce qui permet d’adresser un large panel de besoins.
Intel AVX-512 pour le Machine Learning
AVX-512, de son côté, est un jeu d’instruction dédié au traitement vectoriel intensif. Pourquoi 512 ? Car c’est le nombre de bits à disposition du processeur à chaque cycle d’horloge. Lorsqu’une application utilise Intel AVX-512, elle peut donc fonctionner jusqu’à huit fois plus vite que la vitesse de base de 64 bits du CPU, par la simple augmentation du nombre de registres. Un peu comme si pour compter jusqu’à 96, vous aviez le choix entre énumérer 1, 2, 3, etc., ou directement 8, 16, 24, etc.
Cette capacité permet aux entreprises de prendre en charge des traitements lourds, comme ceux de l’intelligence artificielle, sans avoir à déployer d’accélérateurs externes supplémentaires. Outre les gains de performances, cela se traduit donc également par un ROI plus rapide pour les cas d’usage de l’IA. Vous avez donc désormais une réponse au comment !
1 Basé sur la modélisation du marché Intel de la base installée mondiale de serveurs de centres de données exécutant des charges de travail d’inférence IA en décembre 2022.
2 Voir [A21] sur intel.com/processorclaims : processeurs Intel Xeon Scalable de 5e génération.
3 Voir [A19] sur intel.com/processorclaims : processeurs Intel Xeon Scalable de 5e génération.
Discover more from Ultimatepocket
Subscribe to get the latest posts sent to your email.