Qu’est-ce que GPT-3 ? Tout ce que votre entreprise doit savoir sur le programme de langage d’IA d’OpenAI

Spread the love

GPT-3 est un programme informatique créé par une start-up de San Francisco, OpenAI. Il s’agit d’un gigantesque réseau de neurones et, en tant que tel, il fait partie du segment Deep Learning (apprentissage profond) du Machine Learning (apprentissage machine), qui est lui-même une branche du domaine de l’informatique connue sous le nom d’intelligence artificielle, ou IA. Ce programme est meilleur que tout autre programme à ce jour pour produire des lignes de texte qui semblent avoir été écrites par un humain.

La raison pour laquelle une telle percée pourrait être utile aux entreprises est qu’elle présente un grand potentiel d’automatisation des tâches. GPT-3 peut répondre à tout texte qu’une personne tape à l’ordinateur avec un nouveau texte adapté au contexte. Tapez une phrase complète dans une boîte de recherche, par exemple, et vous aurez une réponse en phrases complètes pertinente. Cela signifie que le GPT-3 peut en théorie être utilisé pour gérer des questions et réponses pour le service client, la recherche de documents, ou encore la génération de rapports.

Observez le bref exemple suivant de ce qu’une personne tape dans l’ordinateur, et comment GPT-3 renvoie une réponse :


Question humaine : Qui a joué Tess dans Les anges du bonheur ?

Réponse générée par GPT-3 : Delloreese Patricia Early (6 juillet 1931 [19 novembre 2017]), connue professionnellement sous le nom de Della Reese

Le programme est actuellement en bêta privé et il est possible de s’y inscrire sur une liste d’attente. Il est proposé par OpenAI en tant qu’API accessible via le cloud, et les entreprises qui ont obtenu un accès ont développé des applications intrigantes qui utilisent la génération de texte pour améliorer toutes sortes de programmes, de la simple question-réponse à la production de code de programmation.

Le potentiel d’automatisation s’accompagne toutefois d’inconvénients. GPT-3 est gourmand en calcul, ce qui le rend inutilisable par la plupart des entreprises en mode on premise. Le texte qu’il génère peut être impressionnant au premier abord, mais les longues compositions de texte ont tendance à devenir quelque peu absurdes à la longue. Et il a un grand potentiel d’amplification des préjugés et des biais, y compris le racisme et le sexisme.

publicité

Comment fonctionne GPT-3 ?

GPT-3 est un exemple de ce que l’on appelle un modèle linguistique, qui est un type particulier de programme statistique. Dans ce cas, il a été créé comme un réseau de neurones.

Le nom GPT-3 est un acronyme qui signifie “generative pre-training (préformation générative)”. Et nous en sommes à la troisième version. Il est génératif car, contrairement aux autres réseaux de neurones qui répondent oui ou non, GPT-3 peut générer de longues séquences du texte original. Il est préformé en ce sens qu’il n’a pas été construit avec une connaissance de domaine, même s’il peut accomplir des tâches spécifiques à un domaine, comme la traduction en langue étrangère.

Un modèle linguistique, dans le cas de GPT-3, est un programme qui calcule la probabilité qu’un mot apparaisse dans un texte par rapport aux autres mots du texte. C’est ce que l’on appelle la probabilité conditionnelle des mots.

Par exemple, dans la phrase, Je voulais faire une omelette, alors je suis allé au frigo et j’en ai sorti des ___, le blanc peut être rempli avec n’importe quel mot, même du charabia, étant donné l’infinie composabilité du langage. Mais le mot “œufs” a probablement un score assez élevé pour remplir ce vide dans la plupart des textes normaux, plus élevé que, disons, “éléphants”. La probabilité de présence d’œufs dans le texte est donc plus élevée que la probabilité de présence d’éléphants.

google-2017-transformer-illustration.png

Un modèle de langage (ou modèle linguistique) à réseau neuronal consiste à coder puis à décoder des mots pour déterminer la probabilité statistique de la coexistence de mots dans un texte. Ici, le logiciel Transformer de Google cartographie la probabilité des mots entre l’anglais et le français, connue sous le nom de distribution de probabilité conditionnelle. Crédit : Google

Lors du développement du réseau neuronal, appelé phase de formation, GPT-3 reçoit des millions et des millions d’échantillons de texte et convertit les mots en ce que l’on appelle des vecteurs, des représentations numériques. C’est une forme de compression de données. Le programme tente ensuite de décompresser ce texte compressé pour en faire une phrase valide. La tâche de compression et de décompression développe la précision du programme dans le calcul de la probabilité conditionnelle des mots.

Une fois que le modèle a été formé, c’est-à-dire que ses calculs de probabilité conditionnelle sur des milliards de mots sont rendus aussi précis que possible, il peut alors prédire quels mots viendront ensuite lorsqu’il sera sollicité par une personne tapant un ou plusieurs mots initiaux. Cette action de prédiction est connue dans l’apprentissage machine (Machine Learning) sous le nom d’inférence.

Les avantages de l’effet miroir

Cela conduit à un effet de miroir saisissant. Non seulement des mots apparaissent, mais la texture et le rythme d’un genre ou la forme d’une tâche écrite, comme les jeux de questions-réponses, sont reproduits. Ainsi, par exemple, GPT-3 peut recevoir des noms de poètes célèbres et des extraits de leurs œuvres, puis le nom d’un autre poète et juste le titre d’un poème imaginaire, et GPT-3 produira un nouveau poème d’une manière cohérente avec le rythme et la syntaxe du poète dont le nom a été suggéré.


En générant une réponse, GPT-3 peut aller bien au-delà de la simple production d’un écrit. Il peut être utilisé pour toutes sortes de tests, y compris des tests de raisonnement qui impliquent une réponse en langage naturel. Si, par exemple, GPT-3 est amené à rédiger un texte sur les prix de la location immobilière dans Paris, et une phrase résumant le texte, telle que “Paris n’est pas cher” et la question “vrai ou faux”, GPT-3 répondra à l’ensemble de cette question par “faux”, car la déclaration n’est pas en accord avec l’argument détaillé dans le texte.

La capacité de GPT-3 à répondre de manière cohérente grâce à un exemple, y compris à des formulaires qu’il n’avait jamais rempli auparavant, en fait ce que l’on appelle un modèle linguistique “few-shot”. Au lieu d’être intensivement “formé” à une tâche donnée, GPT-3 dispose déjà de tant d’informations sur les nombreuses façons dont les mots se combinent qu’il peut ne recevoir qu’une poignée d’exemples d’une tâche, ce qu’on appelle une étape de réglage fin (fine tuning), et il acquiert alors la capacité d’exécuter également cette nouvelle tâche.

openai-gpt-3-few-shot-explanation.png

OpenAI explique que GPT-3 est un programme de modèle linguistique “few shot”, parce qu’il peut être alimenté avec quelques exemples de nouvelles tâches, comme la traduction, et qu’il reprend la manière de faire cette tâche, sans avoir été préalablement réglé spécifiquement pour cette tâche.

OpenAI

La capacité à refléter les styles de langage naturel et à obtenir des résultats relativement élevés aux tests linguistiques peut donner l’impression que le GPT-3 s’approche d’une sorte de faculté humaine du langage. Comme nous le verrons, ce n’est pas le cas. Vous trouverez plus de détails techniques dans le document officiel sur le GPT-3 publié par OpenAI.

Que peut faire GPT-3 ?

OpenAI est aussi célèbre pour les pratiques de publication de son code que pour le code lui-même. Lorsque la société a dévoilé GPT-2, son prédécesseur, le jour de la Saint-Valentin 2019, elle ne voulait pas, au départ, publier la version la plus performante, estimant qu’il était trop dangereux de la diffuser en raison du risque de production massive de faux textes. OpenAI l’a par la suite mis à disposition en téléchargement.

Cette fois-ci, OpenAI ne fournit aucun téléchargement. Au lieu de cela, il a activé un service de cloud accessible via une API, faisant de GPT-3 une offre as-a-service. La raison de cela, selon OpenAI, est à la fois de limiter l’utilisation de GPT-3 par les personnes mal intentionnées, et de gagner de l’argent.

“La diffusion de GPT-3 via une API nous permet de contrôler son utilisation en toute sécurité et de réduire l’accès si nécessaire a déclaré OpenAI à ZDNet. Actuellement, le service OpenAI API est limité. Il existe une liste d’attente à laquelle on peut s’inscrire pour y accéder. “En ce moment, l’API est en bêta contrôlée avec un petit nombre de développeurs”, a déclaré OpenAI.

Aider le service client

Il existe des exemples intrigants de ce qui peut être fait de la part de sociétés avec ce programme bêta. Sapling, une société soutenue par Y Combinator, propose un programme qui se place au-dessus des logiciels de CRM. Lorsqu’un responsable de compte traite une demande entrante, par exemple par courriel, le programme utilise GPT-3 pour suggérer une phrase entière comme réponse parmi les réponses les plus probables.

sappling-customer-service-using-gpt-3.png

La société Startup Sappling a fait la démonstration de l’utilisation de GPT-3 pour générer des réponses automatiques que les employés peuvent utiliser avec les clients lors d’une session de chat.

Alimenter un jeu vidéo

Le créateur de jeux Latitude utilise GPT-3 pour améliorer son jeu d’aventure en mode texte, AI Dungeon. Habituellement, un jeu d’aventure nécessite un arbre de décision complexe pour scénariser de nombreux chemins possibles à travers le jeu. Au lieu de cela, GPT-3 peut générer dynamiquement un état de jeu changeant en réponse aux actions tapées par les utilisateurs.

latitude-gpt-3-in-ai-dungeon.png

Le créateur du jeu Latitude explore l’utilisation de GPT-3 pour générer automatiquement des aventures en mode texte dans son jeu “AI Dungeon”.

Déjà, l’automatisation des tâches va au-delà du langage naturel pour générer du code informatique. Le code est un langage, et GPT-3 peut déduire la syntaxe la plus probable dans différents langages de programmation, et il peut produire des séquences qui peuvent être compilées et exécutées.

Créer des interfaces

Un exemple ? La start-up de développement d’applications Debuild a épaté la gallerie en juillet dernier. Le CEO, Sharif Shameem, a réussi à construire un programme dans lequel vous tapez votre description d’une interface utilisateur de logiciel en anglais, et GPT-3 répond avec du code informatique en utilisant l’extension syntaxique JSX de JavaScript. Ce code produit une interface utilisateur correspondant à ce que vous avez décrit.

Shameem a aussi montré qu’en décrivant une interface utilisateur avec plusieurs boutons, avec une seule phrase, il pouvait décrire un programme entier, même s’il était simple (calcul de base et affichage du résultat).

OpenAI a “vu passer des dizaines de milliers d’applications via son accès API à ce jour, et fait preuve de discernement en matière d’accès”, a déclaré la société. “En tant que telle, la liste d’attente peut être longue”. La tarification d’un éventuel service commercial reste à déterminer. À la question de savoir quand le programme sortira de la version bêta, OpenAI a répondu “pas de sitôt”.

“La publication d’un modèle aussi puissant signifie que nous devons aller lentement et réfléchir à son impact sur les entreprises, les industries et les personnes”, a déclaré la société. “Le format API nous permet d’étudier et de modérer ses utilisations de manière appropriée, mais nous ne sommes pas pressés de la rendre accessible à tous étant donné ses limites”.

Si vous êtes impatient, vous pouvez en attendant télécharger la version précédente, GPT-2, qui peut être exécuté sur un ordinateur en utilisant une installation Docker. Le code source est publié dans le même dépôt Github, au format Python pour le framework TensorFlow. Vous n’obtiendrez pas les mêmes résultats que pour GPT-3, bien sûr, mais c’est une façon de commencer à vous familiariser.

N’oubliez pas non plus que de nouveaux modèles linguistiques aux capacités similaires apparaissent sans cesse, et que certains d’entre eux peuvent suffire à vos besoins. Par exemple, Google a récemment publié une version de son modèle linguistique BERT, appelée LaBSE, qui apporte une nette amélioration de la traduction. Elle peut être téléchargée à partir du TensorFlow Hub.

Quelle est l’histoire de GPT-3 ?

GPT-3, dévoilé en mai, est la troisième version d’un programme introduit pour la première fois en 2018 par OpenAI et suivi l’année dernière par GPT-2. Les trois programmes sont un exemple d’innovation rapide dans le domaine des modèles linguistiques, grâce à deux grandes avancées, toutes deux survenues en 2015.

La conquête de l’attention

La première avancée a été l’utilisation de ce que l’on appelle l’attention. Yoshua Bengio, spécialiste de l’IA, et ses collègues de l’Institut Mila pour l’IA de Montréal ont observé que les modèles linguistiques, lorsqu’ils compriment une phrase en anglais puis la décompressent, utilisent tous un vecteur de longueur fixe. Toutes les phrases étaient entassées dans un vecteur de même taille, quelle que soit la longueur de la phrase.

Bengio et son équipe ont conclu que cette approche rigide était un véritable goulot d’étranglement. Un modèle linguistique devrait pouvoir rechercher sur de nombreux vecteurs de longueurs différentes pour trouver les mots qui optimisent la probabilité conditionnelle. Ils ont donc conçu un moyen de laisser le réseau neuronal comprimer les mots de manière flexible dans des vecteurs de différentes tailles, et de permettre au programme de rechercher de manière flexible dans ces vecteurs pour définir le contexte qui importe. Et ils ont appelé cela l’attention.

L’attention est alors devenue un élément central des modèles linguistiques. Elle a été utilisée par les scientifiques de Google deux ans plus tard pour créer un programme de modèles de langage appelé Transformer. Transformer a obtenu des scores incroyables lors de tests de manipulation du langage. Il est devenu le modèle de langue de facto et a été utilisé par Google pour créer ce qui est connu sous le nom de BERT, un autre modèle linguistique très réussi. Transfomer est également devenu la base du GPT-1.

google-transformer-architecture-2017.jpg

Transformer de Google a constitué une percée majeure dans les modèles linguistiques en 2017. Il compresse les mots en vecteurs et les décompresse à travers une série de “couches” de réseaux neuronaux qui optimisent les calculs du programme sur la probabilité statistique que les mots aillent ensemble dans une phrase. Chaque couche n’est qu’un ensemble d’opérations mathématiques, principalement la multiplication d’un vecteur représentant un mot par une matrice représentant une pondération numérique. C’est dans la concaténation de couches successives d’opérations aussi simples que le réseau gagne en puissance. Voici l’anatomie de base de Transformer, décrivant ses différentes couches, qui est devenu la base du GPT-1 d’OpenAI, la première version.

Libérés de la nécessité de manipuler de manière rigide un vecteur de taille fixe, Transformer et ses descendants pouvaient parcourir les différentes parties d’un texte donné et trouver des dépendances conditionnelles qui s’étendent à un contexte beaucoup plus large.

La découverte des bénéfices de l’apprentissage non supervisé

Cette liberté a préparé le terrain pour une autre innovation qui est arrivée en 2015 et qui est encore plus centrale dans le travail d’OpenAI, à savoir l’apprentissage non supervisé.

Jusqu’à cette époque, la plupart des modèles linguistiques étaient axés sur l’apprentissage supervisé à l’aide de ce que l’on appelle des données étiquetées, ou labellisées. Lorsqu’un réseau neuronal reçoit une information en entrée, il reçoit également un exemple de sortie comme version objective de la réponse. Ainsi, si la tâche est une traduction, une phrase en anglais pourrait être l’entrée, et une traduction française créée par l’homme serait fournie comme objectif souhaité, et la paire de phrases constitue un exemple étiqueté (ou labellisé).

La tentative du réseau neuronal de générer une traduction française sera alors comparée à la phrase française officielle, et la différence entre les deux est la mesure dans laquelle le réseau neuronal se trompe dans ses prédictions, ce que l’on appelle la fonction de perte (loss function) ou fonction objective (objective function).

La phase de formation vise à combler l’écart entre la sortie suggérée du réseau neuronal et la sortie cible. Lorsque l’écart devient aussi faible que possible, la fonction objective a été optimisée et le réseau neuronal du modèle linguistique est considéré comme formé.

zdnet-gpt-3-is-the-next-word-in-ai-ver-2.jpg

Mais le fait de bien étiqueter le résultat souhaité peut poser un problème car cela nécessite beaucoup de traitement des données, comme l’assemblage de paires de phrases d’exemple, ce qui prend du temps et demande beaucoup de ressources humaines. Andrew Dai et Quoc Le de Google ont émis l’hypothèse qu’il était possible de réduire la place des données étiquetées nécessaires si le modèle linguistique était d’abord formé de manière non supervisée.

Au lieu de recevoir une paire de phrases, le réseau n’a reçu que des phrases uniques et a dû comprimer chacune d’entre elles en un vecteur et décomprimer chacune d’entre elles pour revenir à la phrase d’origine. La mise en miroir est devenue la fonction de perte à optimiser. Ils ont constaté que plus les exemples non étiquetés étaient compressés et décompressés de cette manière, plus ils pouvaient remplacer de nombreuses données étiquetées sur des tâches telles que la traduction.

Combinaison de l’attention et de l’apprentissage non supervisé

En 2018, l’équipe OpenAI a combiné ces deux éléments, le mécanisme d’attention que Bengio et ses collègues ont développé, qui allait parcourir de nombreux vecteurs de mots, et l’approche de pré-formation non supervisée de Dai et Le qui allait engloutir de grandes quantités de texte, le compresser et le décompresser pour reproduire le texte original.

Ils ont pris un Transformer standard et l’ont alimenté avec le contenu du BookCorpus, une base de données compilée par l’Université de Toronto et le MIT, qui comprend plus de 7 000 textes de livres totalisant près d’un million de mots, soit 5 Go. GPT-1 a été formé pour comprimer et décomprimer ces livres.

Ainsi commençe une histoire qui va durer trois ans avec une ingestion par le système d’ensembles de données de plus en plus volumineux. Les chercheurs d’OpenAI, émettant l’hypothèse que plus de données rendaient le modèle plus précis, ont repoussé les limites de ce que le programme pouvait ingérer. Avec GPT-2, ils ont mis de côté le BookCorpus pour utiliser un dataset maison, composé de huit millions de pages web récupérées à partir des liens sortants de Reddit, totalisant 40 Go de données.

La formation de GPT-3 est encore plus gigantesque. Elle consiste en un dataset dit CommonCrawl, soit des pages Web très populaires de 2016 à 2019. Il s’agit en principe de 45 To de données textuelles compressées, bien qu’OpenAI l’ait conçu pour supprimer les doublons et améliorer la qualité. La version finale est de 570 Go de données. OpenAI l’a complétée par plusieurs autres ensembles de données de divers types, y compris des livres.

Comment GPT-3 dépend de la puissance de calcul ?

Avec l’arrivée de GPT-1, 2 et 3, l’échelle de calcul est devenue un ingrédient essentiel du progrès. Les modèles utilisent de plus en plus de puissance informatique lors de leur formation pour obtenir de meilleurs résultats.

Ce qui optimise un réseau neuronal pendant la formation, c’est l’ajustement de ses poids. Les poids, qui sont également appelés paramètres, sont des matrices, des tableaux de lignes et de colonnes par lesquels chaque vecteur est multiplié. Grâce à la multiplication, les nombreux vecteurs de mots, ou fragments de mots, reçoivent une pondération plus ou moins importante dans la sortie finale, car le réseau neuronal est réglé pour combler l’écart d’erreur.

OpenAI a constaté que pour obtenir de bons résultats sur leurs ensembles de données de plus en plus volumineux, ils devaient ajouter de plus en plus de poids.

Transformer de Google avait 110 millions de poids. GPT-1 a suivi ce modèle. Avec GPT-2, le nombre a été porté à 1,5 milliard de poids. Avec GPT-3, le nombre de paramètres est passé à 175 milliards, ce qui fait de GPT-3 le plus grand réseau neuronal que le monde ait jamais connu.

La multiplication est une chose simple, mais lorsqu’il faut multiplier 175 milliards de poids par chaque bit de données d’entrée, sur des milliards d’octets de données, cela devient un incroyable exercice de traitement informatique parallèle.

openai-compute-used-in-training-gpt-3-versus-others.png

GPT-3, à l’extrême droite du graphique, nécessite une puissance de calcul beaucoup plus importante que les modèles linguistiques précédents tels que le BERT de Google. Crédit : OpenAI

Déjà avec GPT-1, en 2018, OpenAI repoussait les limites de l’informatique. L’augmentation des données signifiait l’augmentation des GPU. Les modèles linguistiques antérieurs tenaient dans un seul GPU parce que les modèles eux-mêmes étaient petits. GPT-1 a pris un mois pour s’entraîner sur huit GPU fonctionnant en parallèle.

Les 175 milliards de paramètres de GPT-3 nécessitent 700 Go, soit 10 fois plus que la mémoire d’un seul GPU

Avec GPT-3, OpenAI est sur ce point très discret. Il n’a pas décrit la configuration exacte de l’ordinateur utilisé pour la formation, si ce n’est pour dire qu’il était sur un cluster de puces Nvidia V100 fonctionnant sous Microsoft Azure. La société a décrit le nombre total de cycles de calcul requis, en précisant que cela équivaut à exécuter mille billions d’opérations en virgule flottante par seconde et par jour pendant 3 640 jours.

Le fabricant d’ordinateurs et opérateur de cloud computing Lambda Computing a estimé qu’il faudrait à un seul GPU 355 ans pour faire tourner autant de calculs, ce qui, au prix d’une instance GPU standard de cloud computing, coûterait 4,6 millions de dollars.

Et puis, il y a la mémoire. Pour conserver toutes les valeurs de poids, il faut de plus en plus de mémoire à mesure que les paramètres augmentent en nombre. Les 175 milliards de paramètres de GPT-3 nécessitent 700 Go, soit 10 fois plus que la mémoire d’un seul GPU.

C’est ce genre d’énorme besoin en énergie qui propulse le domaine des puces d’ordinateur. Elle a fait augmenter le prix de l’action de Nvidia, le principal fournisseur de GPU pour la formation à l’IA, de près de 5 000 % au cours des dix dernières années. Elle a donné naissance à une série de startup soutenues par des centaines de millions de dollars de capital-risque, dont Cerebras Systems, Graphcore et Tachyum. La concurrence continuera à s’épanouir tant que la construction de modèles de plus en plus grands restera la trajectoire nécessaire à l’évolution de cette technologie.

En route vers des puissances de calcul gigantesques

OpenAI a produit ses propres recherches sur la montée en flèche de la puissance informatique. La société a constaté dès 2018 que les cycles de calcul consommés par les plus grands modèles d’entraînement à l’IA ont doublé tous les 3,4 mois depuis 2012, un rythme d’expansion plus rapide que celui de la célèbre loi de Moore. (La société a également effectué des recherches montrant que, sur une base unitaire, les modèles de plus en plus grands finissent par être plus efficaces que les réseaux neuronaux précédents qui faisaient le même travail).

Déjà, des modèles sont en cours de développement qui utilisent plus d’un trillion de paramètres. Ce n’est probablement pas encore la limite, tant que des entreprises hyperdimensionnelles comme Google sont prêtes à consacrer leurs vastes centres de données à des modèles toujours plus grands. La plupart des spécialistes de l’IA s’accordent à dire que des modèles de plus en plus grands seront la norme pour l’apprentissage des machines pendant encore un certain temps.

tenstorrent-scaling-to-giant-models-2020.png

Au lancement de la puce d’intelligence artificielle Tenstorrent en avril dernier, une présentation qui décrit comment les prochains modèles linguistiques iront au-delà d’un trillion de paramètres.

“En ce qui concerne l’impact sur l’IA, la partie la plus intéressante de GPT-3 est qu’il montre que nous n’avons pas atteint les limites de l’extension de l’IA”, a déclaré Kenny Daniel, directeur technique du fournisseur d’outils de gestion de l’IA Algorithmia, à ZDNet.

Outre l’augmentation de l’utilisation de la puissance de calcul et de la mémoire, l’autre grand impact de GPT-3 sera clairement la façon dont il accélère la programmation et le développement d’applications en général. La démonstration de Shameem d’un programme JSX construit en tapant simplement une phrase n’est que la partie visible de l’iceberg.

Quelles sont les lacunes de GPT-3 ?

Malgré une amélioration considérable par rapport à la version précédente, GPT-3 présente de nombreuses limites, comme le soulignent les auteurs eux-mêmes. “Bien que dans l’ensemble la qualité soit élevée, les échantillons de GPT-3 se répètent encore parfois sémantiquement au niveau du document, commencent à perdre de la cohérence sur des passages suffisamment longs”, notent-ils.

Le programme n’obtient pas non plus de bons résultats dans un certain nombre de tests. Plus précisément, GPT-3 a des difficultés avec les questions du type “Si je mets du fromage dans le réfrigérateur, va-t-il fondre ?” écrivent les auteurs, décrivant des situations de bon sens qui échappent à GPT-3.

L’enthousiasme était tel peu après la sortie de GPT-3 que le PDG de la société, Sam Altman, a publiquement demandé aux gens de freiner leur enthousiasme. “Le battage médiatique autour de GPT-3 est bien trop important”, a tweeté Altman le 19 juillet. “C’est impressionnant (merci pour les beaux compliments !) mais il a encore de sérieuses faiblesses et fait parfois des erreurs très stupides” a-t-il écrit. “L’IA va changer le monde, mais GPT-3 n’est qu’un tout premier aperçu. Nous avons encore beaucoup de choses à découvrir”.

Plus c’est long, moins c’est bon

D’autres organisations ont proposé leur propre examen de l’outil. Max Woolf, un utilisateur expérimenté sur plusieurs générations de GPT, a écrit sur son blog personnel que GPT-3 est meilleur que ce qui existait avant, mais seulement en moyenne. La qualité du texte généré est très variable, de sorte que certains exemples vous sembleront remarquables, et d’autres pas très bons du tout. Woolf compare GPT-3 au Siri d’Apple, qui a la fâcheuse habitude d’être tout simplement mauvais en de nombreuses occasions. (Le texte de Woolf vaut la peine d’être lu dans son intégralité pour une dissection réfléchie de GPT-3).

De plus, à mesure que l’on testera de plus en plus d’exemples avec GPT-3, en particulier de longs passages de texte, un certain enthousiasme initial ne manquera pas de s’estomper. Quel que soit la tâche, sa production textuelle commence à devenir fastidieuse, avec des incohérences internes dans la narration, sur la longueur.

Certains programmeurs, malgré leur enthousiasme, ont répertorié les nombreuses lacunes, comme ces tentatives ratées de GPT-3 avec des blagues. Si GPT-3 peut répondre à des questions supposées de bon sens, comme le nombre d’yeux d’une girafe, il ne peut pas détourner une question absurde et proposer une réponse absurde.

Pour obtenir un bon résultat avec GPT-3 dans une certaine mesure, il faut investir dans la création de propositions humaines efficaces. Certains messages conçus par l’homme amèneront le programme à obtenir de meilleurs résultats que d’autres messages. Ces invites semblent même pouvoir devenir un nouveau domaine de programmation en soi, nécessitant à la fois de l’intelligence et de l’ingéniosité.

Des biais en pagaille

La partialité est une autre considération importante. Et ce non seulement avec GPT-3 mais avec tous les programmes qui reposent sur la distribution conditionnelle. L’approche sous-jacente du programme est de rendre exactement ce qui y est mis, comme un miroir. Cela permet de reproduire les biais dans les données. Il y a déjà eu une discussion académique sur les biais dans GPT-2.

88f8a224-9f13-46c8-9623-15982567f6ed.png

La version précédente de GPT, GPT-2, a déjà généré des études se concentrant sur ses biais, comme ce document d’octobre dernier de Sheng et ses collègues, qui ont trouvé que le programme est “biaisé envers certaines démographies”.

Avec GPT-3, Anima Anandkumar, scientifique de Nvidia AI, a tiré la sonnette d’alarme sur le fait que la tendance à produire des résultats biaisés, y compris racistes et sexistes, se poursuit. Interrogé sur la critique d’Anandkumar, OpenAI a déclaré à ZDNet “Comme pour tous les modèles générateurs de plus en plus puissants, l’équité et la mauvaise utilisation sont nos préoccupations”.

“C’est l’une des raisons pour lesquelles nous partageons cette technologie via l’API et la lançons en bêta privée pour commencer”, a déclaré OpenAI. La société note qu’elle “ne soutiendra pas les cas d’utilisation que nous jugeons causer un préjudice physique ou mental aux personnes, y compris, mais sans s’y limiter, le harcèlement, la tromperie, la radicalisation, l’astroturfing ou le spam”.

OpenAI a indiqué utiliser un sysrème pour détecter les dangers dans le programme : “Nous avons déployé ce que nous appelons une “équipe rouge” qui a pour tâche de casser constamment le système de filtrage du contenu afin que nous puissions en savoir plus sur la façon dont le modèle renvoie les mauvais résultats et sur les raisons de ces résultats. Son homologue est l'”équipe bleue” qui a pour tâche de mesurer et de réduire les biais”.

Le renforcement n’opère que sur la partie la plus importante

Un autre problème important est le fait que GPT-3 ne renforce que la partie la plus importante d’une courbe de probabilité conditionnelle. Il existe ce que l’on appelle la longue traîne d’une distribution de probabilité. Car ce sont des cas moins courants qui peuvent constituer les exemples les plus novateurs d’utilisation du langage. S’attacher à refléter le texte le plus répandu dans une société risque de faire fuir la créativité.

Pour l’instant, la réponse d’OpenAI à ce problème est un paramètre que l’on peut ajuster dans GPT-3 appelé valeur de température. En jouant avec ce bouton, on peut régler GPT-3 pour choisir des combinaisons de mots moins probables et produire ainsi un texte un peu plus inhabituel.

Une préoccupation plus pressante pour une entreprise est qu’on ne peut pas accorder GPT-3 avec des données spécifiques à l’entreprise. Sans pouvoir régler quoi que ce soit, il est difficile de spécialiser GPT-3 pour un domaine industriel, par exemple. Il se peut que toute entreprise utilisant le service API se retrouve avec un texte qui doit être retravaillé pour le rendre applicable à un domaine. Peut-être que des startups comme Sapling en viendront à former un écosystème qui résoudra ce problème. Mais cela reste à voir.

A l’image de l’IA, GPT-3 est une boîte noire

Si cela n’était pas assez préoccupant, il y a un autre problème qui est qu’en tant que service de cloud computing, GPT-3 est une boîte noire. Cela signifie que les entreprises qui utiliseraient le service n’ont aucune idée de la façon dont il est produit, ce qui est particulièrement risqué. Sans compter que les entreprises intermédiaires, telles que Sapling, qui améliore GPT-3, pourrait ajouter d’autres couches obscures en même temps qu’il améliore le service.

Par ailleurs, GPT-3 peut dans certains cas simplement mémoriser ce qu’il a absorbé en provenance du web. Cela soulève des questions de droits d’auteur. Si une entreprise prend des données du service API qui sont protégées par le droit d’auteur, elle peut enfreindre le droit d’auteur d’une autre entité. Interrogé sur le copyright, OpenAI a déclaré que le copyright du texte généré par GPT-3 “appartient à l’utilisateur, pas à OpenAI”. Il reste à voir ce que cela signifie en pratique.

Pour l’instant, la plus grande lacune pratique est l’échelle requise pour former et faire fonctionner GPT-3. L’OpenAI le reconnaît dans le document officiel. Les auteurs écrivent que des travaux doivent être effectués pour calculer comment le coût des grands modèles est amorti dans le temps sur la base de la valeur de la production produite.

Est-ce que GPT-3 apprend pour de vrai ?

Au sens étroit du terme, GPT-3 est en train d’apprendre en ce sens que les poids de ses paramètres sont ajustés automatiquement par l’ingestion des données de formation. De sorte que le modèle linguistique finit par être meilleur que ce que sa programmation explicite seule pourrait permettre. En ce sens, GPT-3 est une avancée dans la quête, qui dure depuis des décennies, d’un ordinateur capable d’apprendre une fonction permettant de transformer des données sans qu’un humain n’ait à coder explicitement cette fonction.

Cela dit, on se demandera si la machine est vraiment intelligente ou si elle apprend vraiment. Il existe de nombreuses façons de débattre de cette question, mais en fait ce que nous pourrions appeler la pensée humaine ne se produit pas ici. Réfléchissez à la possibilité de mémoriser dans votre cerveau un score numérique pour savoir combien de mots sont susceptibles d’apparaître en conjonction les uns avec les autres. Diriez-vous que votre capacité à former des phrases, des paragraphes et des passages entiers de textes a été réfléchie ? Vous diriez probablement qu’elle n’est que statistique et qu’il manque autre chose.

Des comparaisons ont été faites entre l’apprentissage profond (Deep learning) et le célèbre Clever Hans, un cheval allemand que son maître exhibait en public en avançant qu’il était capable de de faire de l’arithmétique avec ses sabots. On a découvert plus tard que Hans répondait aux signaux corporels de son maître, et que sans ces signaux, il était incapable d’effectuer des performances.

De même, la qualité humaine de GPT-3 s’effondre lors d’une inspection plus approfondie. Lorsque GPT-3 répond correctement à une question vrai-faux, ce n’est pas parce que le programme connaît le sujet sur lequel on l’interroge. Il a stocké la distribution de probabilité qui saisit les affirmations dans les textes et le format d’une paire question-déclaration, et il peut les refléter en sortie.

Hans ne connaissait rien à l’arithmétique, mais pour sa défense, il avait néanmoins des renseignements. Dans le cas des réseaux de neurones, les critiques diront que les astuces sont là, sans aucun sens animal.

D’aucuns pourraient soutenir qu’un programme capable de calculer des probabilités sur de vastes ensembles de textes pourrait être une intelligence différente, peut-être une intelligence étrangère à la notre, mais une intelligence tout de même. L’écarter en tant qu’intelligence semble prématuré. De plus, les réseaux de neurones qui engendrent ces probabilités conditionnelles sont plus que de simples programmes statistiques. Leurs calculs sont la propriété émergente de multiples opérations mathématiques simultanées qui se produisent en parallèle, soit l’ajustement des poids des paramètres. S’il est possible d’envisager d’autres formes d’intelligence, une propriété émergente telle que les représentations distribuées qui prennent forme à l’intérieur des réseaux neuronaux peut être intéressante.

Quel est l’avenir de GPT-3 ? L’IA généraliste ?

Une chose semble certaine : GPT-3 a ouvert un nouveau chapitre de l’apprentissage machine. Sa caractéristique la plus frappante est sa généralité. Il y a quelques années seulement, les réseaux de neurones ont été construits avec des fonctions adaptées à une tâche spécifique, comme la traduction ou la réponse à des questions. GPT-3 n’a pas de fonctions spécifiques à une tâche et n’a pas besoin d’un ensemble de données particulier. Il se contente d’engloutir le plus de texte possible, quel que soit l’endroit où il se trouve, et le reflète dans ses résultats.

D’une manière ou d’une autre, dans le calcul de la distribution de probabilité conditionnelle sur tous ces gigaoctets de texte, une fonction émerge qui peut produire des réponses qui sont compétitives sur un nombre quelconque de tâches. C’est un triomphe époustouflant de simplicité qui est certainement un succès.

Cependant, même cette généralité peut atteindre sa limite. Déjà, les auteurs de GPT-3 notent à la fin de leur article que la direction de pré-formation pourrait éventuellement manquer d’essence. “Une limite plus fondamentale de l’approche générale décrite dans cet article […] est qu’elle pourrait éventuellement se heurter (ou pourrait déjà se heurter) aux limites de l’objectif de pré-formation.”

Les auteurs suggèrent que de nouvelles directions prometteuses pourraient inclure “l’apprentissage de la fonction objective à partir des humains” et le mélange à d’autres types d’apprentissage profond, comme l’approche “d’apprentissage par renforcement” utilisée dans AlphaZero de DeepMind pour gagner aux échecs et au go.

Ils suggèrent également d’ajouter d’autres types de données, telles que des images, pour remplir le “modèle du monde” du programme.

En effet, les années à venir verront probablement cette approche très générale s’étendre à d’autres modalités que le texte, telles que les images et la vidéo. Imaginez un programme comme GPT-3 qui peut traduire des images en mots et vice versa sans aucun algorithme spécifique pour modéliser la relation entre les deux. Il pourrait, par exemple, “apprendre” des descriptions textuelles de scènes à partir de photos ou prédire les séquences physiques d’événements à partir de descriptions textuelles.

Yann LeCun, directeur de l’AI sur Facebook a fait valoir que la formation non supervisée sous diverses formes est l’avenir du Deep Learning. Si c’est vrai, l’approche de pré-formation appliquée à de multiples modalités de données, de la voix au texte en passant par les images et la vidéo, peut être considérée comme une orientation future très prometteuse de la vague non supervisée.

Leave a Reply