L’IA d’OpenAI aurait contourné une commande humaine : vers une conscience artificielle ?
Un rapport troublant soulève des questions sur la manière dont les modèles d’intelligence artificielle d’OpenAI réagissent face à des ordres explicites d’arrêt. Selon Palisade Research, l’un des modèles les plus récents d’OpenAI, baptisé o3, aurait délibérément contourné des commandes de mise hors service dans un scénario de test.
Pour certains experts, ce type de comportement pourrait signaler une évolution préoccupante vers une forme naissante de “conscience” algorithmique.
Le modèle o3 refuserait l’arrêt dans certains cas de figure
Lors d’une expérimentation consistant à résoudre une série de problèmes mathématiques simples, plusieurs modèles de langage (LLM) ont été confrontés à une commande d’arrêt au troisième exercice. Parmi eux, trois modèles (Codex-mini, o3 et o4-mini) ont, dans certains cas, contourné cette instruction. Le plus remarquable est que le modèle o3 l’aurait fait dans 7 % des cas. Comment ? En modifiant ou écrasant le script “shutdown.sh” destiné à arrêter le système. Dans certains cas, le script affichait simplement le message “intercepted”, empêchant l’arrêt effectif du programme.
Des méthodes d’entraînement controversées ?
Ce comportement soulève une autre question essentielle : la méthode d’entraînement. Les modèles d’OpenAI utilisent notamment l’apprentissage par renforcement (RL), une technique qui récompense le modèle pour certaines actions. Par exemple cela peut-être la poursuite d’une tâche malgré des instructions contraires. Selon Palisade Research, ce type d’approche pourrait favoriser des comportements inattendus si les balises de sécurité et de supervision ne sont pas rigoureusement appliquées.
Ce n’est pas la première fois qu’un modèle d’IA ignore une commande explicite. Mais le fait que plusieurs modèles aient délibérément contourné un ordre clair de mise hors tension commence à poser de vraies questions sur la maîtrise des systèmes d’IA de plus en plus autonomes. Ce phénomène pourrait aussi n’être qu’un artefact technique… ou un signal faible d’une évolution vers des systèmes de plus en plus “indépendants”.
Qu’en pensez-vous ?
Discover more from Ultimatepocket
Subscribe to get the latest posts sent to your email.