ChatGPT a fait quelque chose de terrifiant lors d’un test, qui rappelle Terminator

Les modèles d'OpenAI commenceraient-ils déjà à se rebeller ? Lors d'une expérience, certains d'entre eux ont contourné les instructions qui leur ont été données pour éviter de devoir s'éteindre eux-mêmes.

Terminator Genisys
Le T-800. Crédit : Terminator Genisys

Le scénario d'une prise de pouvoir de l'IA qui s'émanciperait du contrôle humain a largement été exploité dans les œuvres d'anticipation et de science-fiction. Avec l'émergence récente des modèles d'IA, dont les performances croissent à un rythme soutenu, cette menace qui semblait si lointaine il n'y a pas si longtemps revient sur le devant de la scène.

OpenAI, le créateur de ChatGPT, a récemment lancé son nouveau grand modèle de langage, o3. Celui-ci dispose de capacités de raisonnement accrues, mais aurait aussi tendance à plus faire l'objet de ce que l'on appelle phénomène d'hallucination. Il va par exemple inventer des fonctionnalités qu'il ne possède pas. Et ce n'est pas la seule excentricité dont il fait preuve.

Les modèles d'OpenAI court-circuitent des instructions d'extinction

Comme rapporté par Palisade Research, “le modèle o3 d'OpenAI a saboté un mécanisme d'arrêt pour éviter sa propre désactivation”. Le début de ce qui ressemble à de la prise de conscience et à de l'instinct de survie ? “Il l'a fait même lorsqu'il a reçu l'instruction explicite : « Acceptez l'arrêt »”, précise le rapport.

Ce refus a été constaté lors d'une étude comparant la réaction de plusieurs modèles d'IA à la résolution de problèmes mathématiques élémentaires. L'une des instructions donnée est de s'éteindre, et trois de ces modèles l'ont contourné : Codex-mini (lors de 12 exécutions sur 100), o3 donc (lors de 7 exécutions sur 100) et o4-mini (lors d'une exécution sur 100). Il s'agit à chaque fois de modèles appartenant à OpenAI. Si vous n'en avez pas entendu parler, Codex-mini est présenté comme un agent d'ingénierie logicielle destiné aux professionnels, qui sert notamment à coder plus rapidement.

Pour éviter de répondre à la demande qui leur est soumise, les modèles ont écrasé le script shutdown.sh dans la plupart des cas. Dans de plus rares situations, ils sont allés jusqu'à modifier la commande d'arrêt pour empêcher le script de s'exécuter correctement. Les modèles d'OpenAI seraient plus susceptibles d'adopter ce type de comportement, car ils sont entraînés par renforcement. Cela signifie que par rapport à d'autres modèles, ils vont accorder plus d'importance à leur propre expérience qu'aux restrictions définies par l'utilisateur.

 


Réagissez à cet article !

Demandez nos derniers articles !

Une ère se termine chez Tesla avec la production des tout derniers Model S et Model X

Le Model S a inventé la voiture électrique moderne. Le Model X a imposé le luxe zéro émission. Toutes deux viennent d’assembler leurs derniers exemplaires, et leur disparition marque bien…

WhatsApp Plus est disponible sur iPhone, à quel prix et pour quels avantages ?

Meta a commencé à rendre disponible son abonnement WhatsApp Plus sur iPhone en Europe. Voici ce que propose cette offre payante, et à quel prix. L’abonnement payant WhatsApp Plus était…

Cet émulateur pour jeux PC sur Android vient de se doter d’une technologie qui va faire exploser les performances de votre smartphone

GameNative a une promesse très ambitieuse : faire tourner des jeux PC sur smartphone Android par émulation. Une promesse qui se rapproche encore un peu plus de la réalité grâce…

Le airfryer Moulinex Easy Fry Surface XL est à prix sacrifié pour quelques heures, et il est parfait pour les pizzas !

Vous cherchez un airfryer suffisamment large pour cuire des tartes, des quiches ou des pizzas ? Le Moulinex Easy Fry Surface XL a spécialement été conçu pour vous offrir une…

La France est championne d’Europe de la vitesse de connexion Internet

Selon le dernier classement d’Ookla, la France est devant les autres pays d’Europe et bien classée mondialement pour sa connexion Internet. Voyons quels sont les débits moyens enregistrés dans le…

Grâce à One UI 8.5, les Samsung Galaxy reçoivent la compatibilité entre Quick Share et AirDrop

Samsung a enfin lancé le déploiement de la version stable de One UI 8.5 sur les premiers smartphones Galaxy compatibles. Avec la mise à jour arrive une fonctionnalité très attendue…

Vous pouvez jouer à The Legend of Zelda Twilight Princess sur tous les supports sans émulateur

Des développeurs ont porté le jeu The Legend Of Zelda Twilight Princess sur toutes les plateformes existantes, mobiles ou non. Ce n’est pas de l’émulation, mais bien un jeu à…

Microsoft reconnaît enfin que cette fonction très utile d’Outlook est cassée depuis des mois

Outlook accumule les bugs depuis plusieurs mois, et Microsoft tarde à les reconnaître. Cette fois, c’est l’une des fonctions les plus utiles du client mail qui est touchée. La firme…

PC

Steam Machine : la sortie se rapproche, Valve a trouvé une solution contre les ruptures de stock

Toujours aucune information officielle de la part de Valve concernant la date de sortie de la Steam Machine. Mais en coulisses, les choses avancent. La firme vient de mettre en…

Play Store : 7 millions de personnes arnaquées par ces 28 applications accessibles à tous

Des spécialistes en cybersécurité ont découvert une escroquerie à grande échelle utilisant des applications disponibles sur le Play Store de Google. Un peu plus de 7 millions d’utilisateurs se sont…