Puissance de calcul : Nvidia, Dell et Qualcomm montent en gamme sur les tâches d’IA

Puissance de calcul : Nvidia, Dell et Qualcomm montent en gamme sur les tâches d’IA

Représentation graphique des tâches d’IA par Nvidia. Nvidia.

Mardi dernier, le dernier test de référence sur la vitesse à laquelle un réseau neuronal peut être exécuté pour faire des prédictions a été présenté par MLCommons, le consortium qui gère les tests MLPerf. Les principaux fournisseurs, tels que Nvidia, Dell, Qualcomm et Supermicro, ont soumis des systèmes informatiques dotés de différentes configurations de puces afin de déterminer les systèmes qui obtiendraient les meilleures notes.

Le test consiste à fournir le plus grand nombre de questions auxquelles il est possible de répondre par seconde, à fournir le temps de réponse le plus court, c’est à dire la latence, ou la consommation d’énergie la plus faible, c’est-à-dire l’efficacité énergétique.

Un groupe de start-up a également participé, notamment Neural Magic, xFusion, cTuning, Nettrix, Neuchips, Moffett et Krai.

publicité

MLPerf Inference 3.0

Baptisé « MLPerf Inference 3.0 », le test émule les opérations informatiques qui se produisent lorsqu’un réseau neuronal entraîné reçoit de nouvelles données et doit produire des conclusions en sortie. Le test de référence mesure la vitesse à laquelle un ordinateur peut produire une réponse pour un certain nombre de tâches, y compris ImageNet, où le défi consiste pour le réseau neuronal à appliquer une des étiquettes à une photo décrivant l’objet sur la photo, tel qu’un chat ou un chien.

Les résultats des tests font suite à l’inférence MLPerf 2.1 présentée en septembre 2022.

Dans un communiqué de presse, MLCommons note que les résultats soumis par de multiples fournisseurs montrent « des gains significatifs de performance de plus de 60 % dans certains tests de référence ».

De plus en plus d’organisations adhèrent aux tests de référence

Les résultats concernent des systèmes informatiques fonctionnant dans des centres de données ou dans un contexte de edge computing, un terme qui englobe désormais une variété de systèmes informatiques autres que les machines traditionnelles des centres de données. Une feuille de calcul énumère les résultats.

Les résultats montrent que de plus en plus d’organisations adhèrent aux tests de référence. Selon MLCommons, « un nombre record de 25 organisations » ont soumis « plus de 6 700 résultats de performance et plus de 2 400 mesures de performance et d’efficacité énergétique ». Ce chiffre est en hausse par rapport aux 5 300 mesures de performance et aux 2 400 mesures d’efficacité énergétique du mois de septembre.

Les soumissions sont regroupées en deux catégories : les soumissions « fermées » et les soumissions « ouvertes ».

  • Dans la première catégorie, les différents soumissionnaires suivent des règles strictes concernant l’utilisation du logiciel d’IA, ce qui permet la comparaison la plus directe des systèmes sur un pied d’égalité.
  • Dans la seconde, les candidats sont autorisés à utiliser des approches logicielles uniques qui ne se conforment pas aux règles standard des critères de référence, ce qui permet de produire des innovations.

Nvidia toujours à l’honneur

Comme c’est souvent le cas, Nvidia, le principal fournisseur de GPU utilisés pour l’IA, a remporté de nombreux honneurs pour ses performances dans la plupart des tests. Le système de Nvidia fonctionnant avec deux processeurs Intel Xeon et huit puces GPU « Hopper » a obtenu la première place dans cinq des six tâches de référence différentes, y compris l’exécution du modèle de langage Google BERT, un précurseur de ChatGPT. Dans l’une des six tâches, c’est un système Dell utilisant une configuration presque identique de puces Intel et Nvidia qui a obtenu la meilleure place.

Pour en savoir plus sur les résultats de Nvidia, consultez le blog de l’entreprise.

Qualcomm a été en mesure de multiplier par trois le débit des requêtes pour le programme de langage BERT par rapport aux résultats obtenus lors du cycle 2.1, a déclaré l’entreprise. Un système soumis par Qualcomm utilisant deux puces de serveur AMD EPYC et 18 puces d’accélération d’IA « AI100 » a obtenu le meilleur score pour la catégorie ouverte des ordinateurs pour datacenter sur la tâche BERT. Son résultat, un débit de 53 024 requêtes par seconde sur le réseau BERT, n’est que légèrement inférieur à la première place obtenue par Nvidia dans la catégorie fermée.

cTuning obtient la première place pour la latence la plus faible

Parmi les nouveaux participants figurait cTuning, une organisation à but non lucratif basée à Paris qui développe des outils open source pour les programmeurs d’intelligence artificielle afin de reproduire les résultats des tests de référence sur différentes plateformes matérielles.

cTuning a obtenu la première place pour la latence la plus faible, c’est-à-dire le temps le plus court entre la soumission d’une requête et le retour de la réponse, pour quatre des cinq tâches du test de référence pour le edge computing, dans la catégorie fermée.

Neural Magic, une startup cofondée par Nir Shavit, chercheur au MIT, a de nouveau mis à contribution son logiciel qui permet de déterminer quels « poids neuronaux » d’un réseau neuronal peuvent être laissés inutilisés afin qu’ils ne soient pas traités par la puce de l’ordinateur, ce qui permet d’économiser de l’énergie informatique.

Le x86 monte en puissance par rapport aux GPU

Le logiciel DeepSparse de l’entreprise est capable d’utiliser uniquement le processeur hôte, une puce x86 d’Intel, d’AMD ou, à l’avenir, des puces basées sur ARM, sans aucune aide des GPU de Nvidia.

Lors du test de langage BERT dans la catégorie ouverte pour le edge computing, le logiciel DeepSparse de Neural Magic a utilisé deux processeurs de serveur AMD EPYC pour obtenir 5 578 réponses par seconde de la part du réseau neuronal Google BERT. Ce résultat n’est que légèrement inférieur à la deuxième place obtenue par l’ordinateur de Supermicro dans la catégorie fermée, qui était composé de deux processeurs Xeon et d’un GPU Nvidia Hopper.

L’entreprise affirme que le fait de s’appuyer sur des puces x86 plutôt que sur des GPU plus coûteux contribuera à diffuser l’IA auprès d’un plus grand nombre d’entreprises et d’institutions en réduisant le coût global d’exécution des programmes.

« Vous pouvez tirer beaucoup plus de ce matériel grand public », a déclaré Michael Goin, responsable de l’ingénierie des produits chez Neural Magic, dans une interview accordée à ZDNET. « Il s’agit des mêmes puces AMD que les entreprises utilisent déjà dans leur magasin ou leur site de vente au détail pour gérer les ventes, l’inventaire et la logistique. »

Pour en savoir plus sur l’approche de Neural Magic voir le billet de blog de la société.

Pour aller plus loin sur ML Perf

IA : Google et Nvidia survolent le marché du machine learning

Source : ZDNet.com

Leave a Reply

Discover more from Ultimatepocket

Subscribe now to keep reading and get access to the full archive.

Continue reading