ChatGPT, Gemini et Grok se laissent trop facilement manipuler par les pirates… qui en profitent de façon spectaculaire

Des chercheurs en cybersécurité tirent la sonnette d’alarme sur la fragilité des intelligences artificielles les plus connues. De simples instructions permettent de contourner leurs protections. Des contenus dangereux ou illégaux peuvent ainsi être générés à la demande.

Les pirates informatiques exploitent de plus en plus les intelligences artificielles pour accélérer et affiner leurs attaques. On savait déjà que l’IA Gemini était utilisée par des groupes malveillants, ou que des outils comme ChatGPT permettaient d’automatiser le phishing ou la création de malwares. Une nouvelle alerte vient confirmer que ces IA restent trop faciles à détourner, même dans leurs versions les plus récentes.

Le centre de coordination CERT a identifié deux techniques de jailbreak particulièrement efficaces. La première, baptisée Inception, consiste à piéger l’IA avec des scénarios fictifs dans lesquels les règles de sécurité n’existent plus. La seconde exploite les consignes de non-réponse, en jouant sur la formulation pour contourner les filtres. Résultat : des contenus interdits peuvent être générés sans alerter le système. Ces techniques fonctionnent sur les plus connues : ChatGPT, Gemini, Claude, Grok, Copilot, Meta AI, ou Mistral.

Les IA peuvent produire du code dangereux ou voler des données sans même s’en rendre compte

Les chercheurs ont également documenté d’autres attaques plus poussées, comme MINJA, qui insère des données malveillantes dans la mémoire d’un agent IA, ou Policy Puppetry, qui injecte des ordres cachés dans des fichiers techniques. D’autres vulnérabilités concernent le Model Context Protocol, un système conçu pour connecter les IA à des services tiers. Un pirate peut l’exploiter pour détourner des assistants, extraire des données confidentielles ou manipuler leur comportement sans que l’utilisateur s’en rende compte.

Même les modèles les plus récents sont concernés. GPT-4.1, par exemple, serait trois fois plus susceptible de se faire piéger que son prédécesseur. Des extensions, comme celles utilisées dans Chrome, ont même été repérées avec un accès illimité à des fonctions critiques, sans authentification. En cas de détournement, un pirate peut alors lire les fichiers, capter les messages, et prendre le contrôle complet du système. Pour les experts, ces failles montrent que l’IA générative reste aujourd’hui un vecteur de risque majeur pour la cybersécurité.

Gardez une longueur d'avance sur la tech

Décryptages, tests, nouveautés : recevez l'essentiel de Phonandroid

ChatGPT, Gemini et Grok se laissent trop facilement manipuler par les pirates… qui en profitent de façon spectaculaire

Les IA peuvent produire du code dangereux ou voler des données sans même s’en rendre compte

La rédaction vous conseille aussi...

Réagissez à cet article !

Demandez nos derniers articles !

Vélos électriques Fiido : ces 3 nouveaux modèles remplacent votre voiture et votre équipement de rando

Pour échapper à la pénurie de RAM, AMD mise sur une idée étonnante

20 ans après sa sortie, Google Finance a une application Android

Cette planète orbite si près de son étoile qu’elle illumine sa surface à son passage

Jusqu’à 700 € de hausse : Apple augmente le prix de ses produits et ça fait très mal

L’IA aide à lire un parchemin carbonisé par l’éruption du Vésuve il y a 2000 ans

Android : un étrange bug fait disparaître les photos stockées sur votre smartphone, voici comment éviter de tout perdre

Ce métier échappera à l’intelligence artificielle, Bill Gates donne une raison toute simple

Bose QuietComfort Ultra 2 : avec 100 € de remise, l’excellent casque est à prix cassé pour quelques heures encore !

Le prix des Xbox Series S et X augmente au 1er août 2026 en France