ChatGPT a fait quelque chose de terrifiant lors d’un test, qui rappelle Terminator

Les modèles d'OpenAI commenceraient-ils déjà à se rebeller ? Lors d'une expérience, certains d'entre eux ont contourné les instructions qui leur ont été données pour éviter de devoir s'éteindre eux-mêmes.

Terminator Genisys
Le T-800. Crédit : Terminator Genisys

Le scénario d'une prise de pouvoir de l'IA qui s'émanciperait du contrôle humain a largement été exploité dans les œuvres d'anticipation et de science-fiction. Avec l'émergence récente des modèles d'IA, dont les performances croissent à un rythme soutenu, cette menace qui semblait si lointaine il n'y a pas si longtemps revient sur le devant de la scène.

OpenAI, le créateur de ChatGPT, a récemment lancé son nouveau grand modèle de langage, o3. Celui-ci dispose de capacités de raisonnement accrues, mais aurait aussi tendance à plus faire l'objet de ce que l'on appelle phénomène d'hallucination. Il va par exemple inventer des fonctionnalités qu'il ne possède pas. Et ce n'est pas la seule excentricité dont il fait preuve.

Les modèles d'OpenAI court-circuitent des instructions d'extinction

Comme rapporté par Palisade Research, “le modèle o3 d'OpenAI a saboté un mécanisme d'arrêt pour éviter sa propre désactivation”. Le début de ce qui ressemble à de la prise de conscience et à de l'instinct de survie ? “Il l'a fait même lorsqu'il a reçu l'instruction explicite : « Acceptez l'arrêt »”, précise le rapport.

Ce refus a été constaté lors d'une étude comparant la réaction de plusieurs modèles d'IA à la résolution de problèmes mathématiques élémentaires. L'une des instructions donnée est de s'éteindre, et trois de ces modèles l'ont contourné : Codex-mini (lors de 12 exécutions sur 100), o3 donc (lors de 7 exécutions sur 100) et o4-mini (lors d'une exécution sur 100). Il s'agit à chaque fois de modèles appartenant à OpenAI. Si vous n'en avez pas entendu parler, Codex-mini est présenté comme un agent d'ingénierie logicielle destiné aux professionnels, qui sert notamment à coder plus rapidement.

Pour éviter de répondre à la demande qui leur est soumise, les modèles ont écrasé le script shutdown.sh dans la plupart des cas. Dans de plus rares situations, ils sont allés jusqu'à modifier la commande d'arrêt pour empêcher le script de s'exécuter correctement. Les modèles d'OpenAI seraient plus susceptibles d'adopter ce type de comportement, car ils sont entraînés par renforcement. Cela signifie que par rapport à d'autres modèles, ils vont accorder plus d'importance à leur propre expérience qu'aux restrictions définies par l'utilisateur.

 


Réagissez à cet article !

Demandez nos derniers articles !

Vous pouvez générer des chansons de 3 minutes par IA avec Gemini et Lyria 3 Pro

Google lance Lyria 3 Pro, son nouveau modèle d’IA de génération de musique. Il est capable de créer des chansons de plus longue durée que les versions précédentes, et est…

Chrome sur Android est “la plateforme mobile la plus rapide pour la navigation web”, déclare Google

Les performances d’Android en matière de navigation web ont atteint des niveaux record. Les smartphones haut de gamme avec Chrome sont devenus plus rapides que les iPhone. La rapidité de…

Apple Plans va intégrer de la publicité, c’est officiel

Apple confirme ouvrir son application Plans à la publicité. Les entreprises et restaurants pourront payer pour être mis en avant par la plateforme, comme sur Google Maps. Les rumeurs de…

Windows 11 : travaillez plus vite grâce à ces 5 outils bien cachés dans le système d’exploitation

Envie de travailler plus vite sur votre PC ? Bonne nouvelle, puisque Windows 11 embarque de nombreuses fonctionnalités méconnues pour vous aider à booster votre productivité. Faisons ensemble les présentations….

Tineco Floor One S6 Stretch Lite : plus de 67% de réduction sur cet aspirateur eau et poussière, vite !

À l’occasion de l’anniversaire AliExpress, vous pouvez vous offrir l’aspirateur sec et humide Tineco Floor One S6 Stretch Lite pour moins de 165 euros grâce au code FRASPHD20. Mais attention,…

YouTube supprime le compteur de J’aime et ça ne plaît pas à tout le monde

Après avoir supprimé le compteur de Je n’aime pas il y a quelques années, YouTube semble envisager de retirer également celui des J’aime. Au plus grand dam de certains utilisateurs….

Le nouveau Ninja CRISPi PRO est enfin là, et pour fêter la sortie du airfryer, la marque vous offre un cadeau !

La famille des friteuses sans huile du géant américain s’agrandit avec un nouveau modèle : le Ninja CRISPi PRO. Ce airfryer polyvalent dispose d’un contenant en verre plus grand tout…

Avec les Bravia 2 II et Bravia 3 II, Sony démontre qu’il sait faire des TV abordables

Alors que plusieurs concurrents s’apprêtent à lancer des modèles RGB LED, Sony prend à contrepied le marché en présentant deux TV abordables : les Bravia 2 II et Bravia 3…

TV

L’application Gemini sur Android va changer du tout au tout, à quoi faut-il s’attendre ?

Google travaille sur une refonte de l’application Gemini sur Android. Plusieurs modifications d’interface vont être opérées, et on sait déjà lesquelles. L’interface de l’application Gemini sur Android ne va bientôt…

IA

iOS 27 : bouton « Ask Siri », application dédiée… voici le plan d’Apple pour enfin réinventer Siri

Siri : ce nom est synonyme de déceptions pour certains et d’espoirs pour d’autres. Attendue pour iOS 26.4, la nouvelle version de l’assistant d’Apple n’a toujours pas pointé le bout de…