ChatGPT a fait quelque chose de terrifiant lors d’un test, qui rappelle Terminator

Les modèles d'OpenAI commenceraient-ils déjà à se rebeller ? Lors d'une expérience, certains d'entre eux ont contourné les instructions qui leur ont été données pour éviter de devoir s'éteindre eux-mêmes.

Terminator Genisys
Le T-800. Crédit : Terminator Genisys

Le scénario d'une prise de pouvoir de l'IA qui s'émanciperait du contrôle humain a largement été exploité dans les œuvres d'anticipation et de science-fiction. Avec l'émergence récente des modèles d'IA, dont les performances croissent à un rythme soutenu, cette menace qui semblait si lointaine il n'y a pas si longtemps revient sur le devant de la scène.

OpenAI, le créateur de ChatGPT, a récemment lancé son nouveau grand modèle de langage, o3. Celui-ci dispose de capacités de raisonnement accrues, mais aurait aussi tendance à plus faire l'objet de ce que l'on appelle phénomène d'hallucination. Il va par exemple inventer des fonctionnalités qu'il ne possède pas. Et ce n'est pas la seule excentricité dont il fait preuve.

Les modèles d'OpenAI court-circuitent des instructions d'extinction

Comme rapporté par Palisade Research, “le modèle o3 d'OpenAI a saboté un mécanisme d'arrêt pour éviter sa propre désactivation”. Le début de ce qui ressemble à de la prise de conscience et à de l'instinct de survie ? “Il l'a fait même lorsqu'il a reçu l'instruction explicite : « Acceptez l'arrêt »”, précise le rapport.

Ce refus a été constaté lors d'une étude comparant la réaction de plusieurs modèles d'IA à la résolution de problèmes mathématiques élémentaires. L'une des instructions donnée est de s'éteindre, et trois de ces modèles l'ont contourné : Codex-mini (lors de 12 exécutions sur 100), o3 donc (lors de 7 exécutions sur 100) et o4-mini (lors d'une exécution sur 100). Il s'agit à chaque fois de modèles appartenant à OpenAI. Si vous n'en avez pas entendu parler, Codex-mini est présenté comme un agent d'ingénierie logicielle destiné aux professionnels, qui sert notamment à coder plus rapidement.

Pour éviter de répondre à la demande qui leur est soumise, les modèles ont écrasé le script shutdown.sh dans la plupart des cas. Dans de plus rares situations, ils sont allés jusqu'à modifier la commande d'arrêt pour empêcher le script de s'exécuter correctement. Les modèles d'OpenAI seraient plus susceptibles d'adopter ce type de comportement, car ils sont entraînés par renforcement. Cela signifie que par rapport à d'autres modèles, ils vont accorder plus d'importance à leur propre expérience qu'aux restrictions définies par l'utilisateur.

 


Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Réagissez à cet article !

Demandez nos derniers articles !

Ne demandez pas à ChatGPT de générer vos mots de passe

Utiliser un chatbot pour créer vos mots de passe, c’est pratique non ? Peut-être, mais d’après ces experts, vous devriez arrêter de le faire. Il s’avère que l’IA n’est pas…

Galaxy S26, S26+ et S26 Ultra moins chers : où les acheter au meilleur prix ?

Les Galaxy S26, S26+ et S26 Ultra sont disponibles à la précommande. Samsung et ses partenaires proposent une offre de lancement qui permet de les acheter moins cher, pendant quelques…

Vous commandez sur Shein, Aliexpress ou Temu ? Attention : vous allez bientôt payer plus cher

Une taxe souhaitée par le gouvernement va entrer en vigueur dans peu de temps. Elle impacte vos commandes sur Temu, Shein ou Aliexpress et peut rapidement faire grimper la facture…

Les Galaxy S26 sont capables de trouver le moment exact de la vidéo que vous cherchez grâce à l’IA

Il n’est pas toujours facile de savoir dans quelle vidéo se trouve ce moment hilarant que vous souhaitez montrer à un proche et les Galaxy S26 comptent bien régler ce…

Gemini devient encore plus intelligent avec ces nouvelles fonctionnalités

En parallèle de la sortie des Galaxy S26, Google annonce les nouveautés de son IA Gemini. Elle devient capable de faire encore plus de choses à votre place. De quoi…

IA

Adobe Firefly vous fait gagner un temps fou sur le montage vidéo grâce à sa nouvelle fonction IA

Le montage vidéo prend souvent des heures, même pour des projets simples. Adobe veut accélérer cette étape grâce à l’intelligence artificielle. Une nouvelle fonction de Firefly promet de créer un…

IA

Outlook : Microsoft a trouvé un nouveau moyen hyper intrusif de vous forcer à utiliser son IA Copilot

Microsoft veut absolument que vous aimiez son IA Copilot et compte bien pour cela vous forcer à l’utiliser contre votre gré. D’ici quelques mois à peine, une nouvelle fonctionnalité d’Outlook…

Les patrons de Disney ont vu Avengers Doomsday, voici ce qu’ils en ont pensé

La sortie d’Avengers Doomsday approche. En attendant, des personnes haut placées chez Disney ont pu voir à quoi ressemble le film. Leur avis est-il rassurant ou inquiétant ? 7 ans…

ChatGPT va proposer une offre à 100 dollars par mois, pour ceux qui sont limités par la version Plus

Du code déniché dans la version web de ChatGPT laisse entendre qu’une nouvelle formule d’abonnement est sur le point d’arriver. Baptisée “Pro Lite”, celle-ci devrait se positionner entre les formules…

IA

Des publicités Google piégées échappent aux contrôles grâce à cet outil pirate

Les publicités en ligne sont devenues un terrain de jeu pour les cybercriminels. Certains outils permettent désormais de contourner les systèmes de vérification des grandes plateformes. Une nouvelle menace vise…