ChatGPT peut écrire du code. Mais surtout, il peut le corriger

ChatGPT peut écrire du code. Mais surtout, il peut le corriger

Le chatbot ChatGPT d’OpenAI peut très bien corriger les bugs logiciels, mais son principal avantage par rapport aux autres méthodes et modèles d’IA est sa capacité unique de dialogue avec les humains. Ce qui lui permet d’améliorer l’exactitude d’une réponse.

Des chercheurs de l’université Johannes Gutenberg de Mayence (Allemagne) et de l’University College London (Grande Bretagne) ont confronté le ChatGPT d’OpenAI aux “techniques standard de réparation automatique des programmes” et à deux approches d’apprentissage profond de la réparation des programmes. La méthode CoCoNut, des chercheurs de l’université de Waterloo, au Canada, et Codex, le modèle GPT-3 d’OpenAI qui sous-tend le service de complétion automatique de Copilot, de GitHub.

“Nous constatons que les performances de ChatGPT en matière de correction de bogues sont compétitives par rapport aux approches d’apprentissage profond courantes CoCoNut et Codex et sont nettement meilleures que les résultats rapportés pour les approches de réparation de programmes standard”, écrivent les chercheurs dans un nouveau document de recherche arXiv, repéré en premier lieu par New Scientist.

publicité

OpenAI met en avant la capacité de dialogue de ChatGPT dans des exemples de débogage de code

Le fait que ChatGPT puisse résoudre des problèmes de codage n’est pas nouveau. Mais les chercheurs soulignent que sa capacité unique de dialogue avec les humains lui donne un avantage potentiel sur d’autres approches et modèles.

Les chercheurs ont testé les performances de ChatGPT à l’aide du benchmark QuixBugs de correction de bugs. Les systèmes de réparation automatique de programmes (APR – Automated Program Repair) semblent être désavantagés car ils ont été développés avant 2018.

ChatGPT est basé sur une architecture dite de transformation, dont le chef de l’IA de Meta, Yann LeCunn, a souligné cette semaine qu’elle avait été développée par Google. Codex, CodeBERT de Microsoft Research, et son prédécesseur BERT de Google sont tous basés sur la méthode de Google.

OpenAI met en avant la capacité de dialogue de ChatGPT dans des exemples de débogage de code où il peut demander des clarifications et recevoir des conseils d’une personne pour arriver à une meilleure réponse. Il a formé les grands modèles de langage (LLM) derrière ChatGPT et GPT 3.5 en utilisant l’apprentissage par renforcement à partir du feedback humain (RLHF – Reinforcement Learning from Human Feedback).

La qualité des suggestions reste incertaine

Si la capacité de discussion de ChatGPT peut aider à arriver à une réponse plus correcte, la qualité de ses suggestions reste incertaine, notent les chercheurs. C’est pourquoi ils ont voulu évaluer les performances de ChatGPT en matière de correction de bugs.

Les chercheurs ont testé ChatGPT sur 40 problèmes QuixBugs concernant uniquement Python, puis ont vérifié manuellement si la solution suggérée était correcte ou non. Ils ont répété la requête quatre fois car la fiabilité des réponses de ChatGPT est quelque peu aléatoire, comme l’a constaté un professeur de Wharton après avoir soumis le chatbot à un examen de type Master.

ChatGPT a résolu 19 des 40 bogues Python, ce qui le place au même niveau que CoCoNut (19) et Codex (21). Mais les méthodes standard de l’APR n’ont résolu que sept des problèmes.

Le taux de réussite de ChatGPT lors des interactions atteignait 77,5 %

Les chercheurs ont constaté que le taux de réussite de ChatGPT atteignait 77,5 %.

Les implications pour les développeurs en termes de productivité sont toutefois ambiguës. Stack Overflow a récemment banni les réponses générées par ChatGPT parce qu’elles étaient de faible qualité mais d’apparence plausible. Le professeur de Wharton a estimé que ChatGPT pourrait être un excellent compagnon pour les étudiants en Master, car il peut jouer le rôle d’un “consultant intelligent” – qui produit des réponses élégantes mais souvent fausses – et encourage la pensée critique.

“Cela montre que l’apport humain peut être d’une grande aide pour un système automatisé APR, ChatGPT fournissant les moyens de le faire”, écrivent les chercheurs.  “Malgré ses grandes performances, la question se pose de savoir si le coût mental requis pour vérifier les réponses de ChatGPT apporte.”

Source : “ZDNet.com”

Leave a Reply

Discover more from Ultimatepocket

Subscribe now to keep reading and get access to the full archive.

Continue reading