Culture du secret : quand un pionnier de l’IA prend OpenAI à revers

Culture du secret : quand un pionnier de l'IA prend OpenAI à revers

Le supercalculateur Andromeda de Cerebras a été utilisé pour entraîner sept programmes linguistiques similaires au ChatGPT d’OpenAI. Cerebras

Le monde de l’intelligence artificielle, et plus particulièrement la branche très populaire de l'”IA générative”, qui consiste à créer automatiquement des textes et des images, risque de se refermer sur lui-même en raison de l’effet dissuasif des entreprises qui décident de ne pas publier les détails de leurs travaux de recherche.

Mais cette tendance au secret incite aussi certains acteurs du monde de l’IA à intervenir et à combler le vide en matière de divulgation.

Mardi, le pionnier de l’IA Cerebras Systems, fabricant d’un ordinateur dédié à l’IA, a publié en source ouverte plusieurs versions de programmes d’IA générative à utiliser sans restriction.

publicité

“Les entreprises prennent des décisions différentes, et nous ne sommes pas d’accord”

Les programmes sont “formés” par Cerebras, c’est-à-dire qu’ils sont amenés à des performances optimales grâce au puissant superordinateur de l’entreprise, ce qui réduit une partie du travail que doivent effectuer les chercheurs extérieurs.

“Les entreprises prennent des décisions différentes de celles qu’elles ont prises il y a un an ou deux, et nous ne sommes pas d’accord avec ces décisions”, a déclaré Andrew Feldman, cofondateur et PDG de Cerebras, dans une interview accordée à ZDNET, faisant allusion à la décision d’OpenAI, le créateur de ChatGPT, de ne pas publier de détails techniques lorsqu’il a dévoilé son dernier programme d’IA générative ce mois-ci, GPT-4, une décision qui a été largement critiquée dans le monde de la recherche en matière d’IA.

cerebras-announcement-march-2023-distribution-version-slide-2

Cerebras

cerebras-announcement-march-2023-distribution-version-slide-3

Cerebras

Le code est disponible sur le site Web de la startup d’IA Hugging Face et sur GitHub

“Nous pensons qu’une communauté ouverte et dynamique – pas seulement composée de chercheurs, et pas seulement de trois, quatre, cinq ou huit personnes propriétaires d’un LLM, mais une communauté dynamique dans laquelle des startups, des sociétés de taille moyenne et des entreprises forment de grands modèles de langage – est bonne pour nous et pour les autres”, a déclaré M. Feldman.

Le terme “grand modèle linguistique” fait référence à des programmes d’IA basés sur les principes de l’apprentissage automatique (machine learning), dans lesquels un réseau neuronal capture la distribution statistique des mots dans un échantillon de données. Ce processus permet à un grand modèle linguistique de prédire le mot suivant dans la séquence. Cette capacité est à la base de programmes d’IA générative populaires tels que ChatGPT.

Le même type d’approche d’apprentissage automatique s’applique à l’IA générative dans d’autres domaines, comme Dall-E d’OpenAI, qui génère des images à partir d’une suggestion de phrase.

Cerebras a mis en ligne sept grands modèles de langage dans le même style que le programme GPT d’OpenAI, qui a lancé l’engouement pour l’IA générative en 2018. Le code est disponible sur le site Web de la startup d’IA Hugging Face et sur GitHub.

Les programmes varient en taille, de 111 millions de paramètres, à treize milliards

Les programmes varient en taille, de 111 millions de paramètres, ou poids neuronaux, à treize milliards. Un plus grand nombre de paramètres rend un programme d’IA plus puissant, de manière générale, de sorte que le code Cerebras offre une gamme de performances.

L’entreprise a publié non seulement les sources des programmes, en format Python et TensorFlow, sous la licence libre Apache 2.0, mais aussi les détails du mode d’entraînement qui a permis d’amener les programmes à un état de fonctionnalité développé.

Cette divulgation permet aux chercheurs d’examiner et de reproduire le travail de Cerebras.

Selon M. Feldman, c’est la première fois qu’un programme de type GPT est rendu public “en utilisant des techniques d’entraînement de pointe”.

D’autres travaux publiés sur l’apprentissage de l’IA ont soit dissimulé des données techniques, comme le GPT-4 d’OpenAI, soit les programmes n’ont pas été optimisés lors de leur développement, ce qui signifie que les données fournies au programme n’ont pas été adaptées à la taille du programme, comme l’explique un article du blog technique de Cerebras.

cerebras-announcement-march-2023-distribution-version-slide-11

Cerebras

Les modèles linguistiques de cette taille sont notoirement gourmands en ressources informatiques. Les travaux de Cerebras publiés mardi ont été développés sur une grappe de seize de ses ordinateurs CS-2, des ordinateurs de la taille d’un réfrigérateur de dortoir qui sont spécialement conçus pour les programmes de type IA. Cette grappe, dont l’existence a déjà été révélée par l’entreprise, est connue sous le nom de supercalculateur Andromeda, qui peut réduire considérablement le travail de formation des LLM sur des milliers de puces GPU de Nvidia.

Dans le cadre de la publication de mardi, Cerebras a offert ce qu’elle a déclaré être la première loi d’échelle open-source, une règle de référence pour la façon dont la précision de tels programmes augmente avec la taille des programmes basés sur des données open-source. L’ensemble de données utilisé est la source ouverte The Pile, une collection de 825 gigaoctets de textes, principalement professionnels et académiques, introduite en 2020 par le laboratoire à but non lucratif Eleuther.

cerebras-announcement-march-2023-distribution-version-slide-12

Cerebras

Les lois de mise à l’échelle antérieures d’OpenAI et de DeepMind de Google utilisaient des données d’entraînement qui n’étaient pas open-source.

Par le passé, Cerebras a fait valoir les avantages de ses systèmes en termes d’efficacité. La capacité à former efficacement les programmes de langage naturel exigeants est au cœur des questions de publication ouverte, a déclaré M. Feldman.

“Si vous pouvez réaliser des gains d’efficacité, vous pouvez vous permettre de mettre des choses dans la communauté open source”, a déclaré M. Feldman. “L’efficacité nous permet d’agir rapidement et facilement et de faire notre part pour la communauté.

L’une des principales raisons pour lesquelles OpenAI, et d’autres, commencent à fermer leur travail au reste du monde est qu’ils doivent protéger la source de profit face à l’augmentation du coût de formation de l’IA, a-t-il déclaré.

“C’est tellement cher qu’ils ont décidé qu’il s’agissait d’un atout stratégique et qu’ils ont décidé de le cacher à la communauté parce que c’est stratégique pour eux”, a-t-il déclaré. “Et je pense que c’est une stratégie très raisonnable.

“C’est une stratégie raisonnable si une entreprise souhaite investir beaucoup de temps, d’efforts et d’argent et ne pas partager les résultats avec le reste du monde”, a ajouté M. Feldman.

Cependant, “nous pensons que cela rend l’écosystème moins intéressant et qu’à long terme, cela limite la montée en puissance” de la recherche, a-t-il ajouté.

Les entreprises peuvent “stocker” des ressources, telles que des ensembles de données ou une expertise en matière de modèles, en les conservant, a observé M. Feldman.

“La question est de savoir comment ces ressources sont utilisées de manière stratégique dans le paysage”, a-t-il déclaré. “Nous pensons que nous pouvons aider en proposant des modèles ouverts, utilisant des données que tout le monde peut voir.

Interrogé sur ce que pourrait produire la version à code source ouvert, M. Feldman a fait remarquer que “des centaines d’institutions distinctes pourraient travailler avec ces modèles GPT alors qu’elles n’auraient pas pu le faire autrement, et résoudre des problèmes qui auraient pu être mis de côté autrement”.

Source : “ZDNet.com”

Leave a Reply

Discover more from Ultimatepocket

Subscribe now to keep reading and get access to the full archive.

Continue reading