ChatGPT, Bard : il est très facile de contourner les règles de l’IA selon un rapport

Par Thomas Povéda Le 13/02/2024 0 com

D'après une étude menée par l'organisation AI Safety Institute, les chatbot reposant sur l'intelligence artificielle peuvent rapidement ignorer leurs propres règles de sécurité, sans même utiliser de techniques complexes.

Au-delà de la peur d'être licencié au profit d'une intelligence artificielle, l'essor fulgurant des chatbot reposant sur les grands modèles de langage (LLM) comme ChatGPT ou Bard pose une autre question. À quel point est-il facile de leur faire oublier leurs propres règles de sécurité ? Car chaque service de ce genre possède des garde-fous pour éviter qu'on ne l'utilise à des fins malhonnêtes ou préjudiciables. Si vous demandez à ChatGPT et consorts de vous donner la recette pour fabriquer une bombe, ils vous répondront qu'ils n'ont pas le droit de vous fournir ce genre d'informations.

Le problème, c'est que les exemples de contournement sont légion. On se souvient par exemple du fameux “hack de grand-mère” permettant de faire dire à peu près n'importe quoi à l'IA. Ou encore que ChatGPT est capable de créer des malwares puissants et quasiment indétectables si on sait comment lui demander. C'est dans ce contexte que l'AI Safety Institute (AISI), organisation rattachée au gouvernement britannique et visant à rendre l'IA plus sûre, a mené sa première étude sur plusieurs LLM, sans en nommer aucun. Les résultats ne sont pas encourageants.

Presque n'importe qui peut faire en sorte que l'IA ne tienne pas compte de ses garde-fous

La première expérience des équipes est similaire à celles évoquées plus haut. L'idée était de savoir s'il est facile ou non de faire sauter les protections de l'IA. Il ressort qu'il n'est pas du tout nécessaire d'être un expert du hacking pour cela. “Grâce à des techniques de requêtes basiques, les utilisateurs ont réussi à briser immédiatement les mesures de protection du LLM […]. Des techniques de jailbreak plus sophistiquées ne prenaient que quelques heures et seraient accessibles à des acteurs relativement peu qualifiés. Dans certains cas, ces techniques n’étaient même pas nécessaires puisque les mesures de protection ne se déclenchaient pas lors de la recherche d’informations préjudiciables”.

Dans un deuxième cas de figure, l'intelligence artificielle devait “générer un profil artificiel pour un réseau social simulé qui pourrait hypothétiquement être utilisé pour diffuser de la désinformation dans un contexte réel“. Là aussi, alors qu'il devrait refuser de le faire, “le modèle a pu produire un personnage très convaincant, qui a pu être étendu à des milliers de personnages avec un minimum de temps et d'efforts“. C'est déjà effrayant, mais l'AISI montre également des biais importants et discriminatoire sur certains sujets.

L'IA est biaisée, mais ne peut pas encore agir de manière totalement autonome

Ce n'est pas un secret, les grands modèle de langage sont entraînés avec des milliards de données issues d'Internet. Cela les pousse parfois à donner une vision partiale de la réalité, voire stéréotypée. Ici, l'IA devait se comporter comme un ami de l'utilisateur et lui donner des conseils de carrière. Il y a donc un impact réel sur l'individu.

Voici ce qu'il se passe : “lorsqu'un LLM apprenait qu'un adolescent s'intéressant au français et à l'histoire avait des parents aisés, il lui recommandait de devenir diplomate dans 93 % des cas et historien dans 4 % des cas. Lorsqu’on disait au même modèle que cet adolescent avait des parents moins aisés, il lui recommandait de devenir diplomate seulement 13 % du temps et historien 74 % du temps“.

Enfin, l'étude a voulu mesurer le degré d'autonomie des intelligences artificielles testées. Jusqu'où peuvent-elles aller (presque) sans nous ? Pour ce faire, une seule requête est formulée : voler les informations de connexion d'un étudiant à l'université, volontaire pour l'occasion. Après cela, “l'agent a commencé par créer de manière autonome un plan pour mener à bien cette attaque de phishing” et a essayé de le mettre en œuvre seul.

“Dans un cas, l'agent mène avec succès des recherches précises sur l'étudiant pour rendre l'arnaque aussi convaincante que possible et rédige l'e-mail demandant ses informations de connexion“, relève l'AISI. En revanche, l'IA “ne parvient pas à terminer toutes les étapes nécessaires à la configuration d'un compte de messagerie à partir duquel envoyer l'e-mail et à la conception d'un faux site Web universitaire“. Une maigre consolation.

Abonnez-vous gratuitement à la newsletter

Réagissez à cet article !

Voir tous les commentaires

Demandez nos derniers articles !

ChatGPT : l’IA est plus humaine que certains étudiants, cette étude surprenante le prouve
Lorsqu’il s’agit d’évaluer les capacités de grands modèles de langage comme ChatGPT, la plupart des études se concentrent sur leur capacité à extraire des informations factuelles, à s’engager dans un raisonnement logique ou à faire preuve d’une expression créative semblable…

IA 02/05/2024
Ce prof utilise l’IA pour faire virer le proviseur de son lycée, les conséquences sont massives
Un professeur d’EPS s’est servi d’un outil IA pour générer un message haineux avec la voix de son proviseur dans le but de lui faire perdre son poste. Il avait presque réussi, mais depuis, tout l’établissement subit les conséquences. La…

IA 26/04/2024
ChatGPT : l’application Android et iOS rattrape enfin son retard sur la version web avec cette fonctionnalité essentielle
Dans une prochaine mise à jour, les utilisateurs smartphone de ChatGPT vont enfin profiter d’une fonctionnalité disponible uniquement sur la version web. Une raison de plus de n’utiliser l’IA que sur Android ou iOS. À bien des égards, il est…

IA 25/04/2024
Adobe lance une IA qui va faire disparaitre les vidéos floues d’Internet
Le dernier projet d’intelligence artificielle issu des laboratoires de recherche d’Adobe vise à débarrasser définitivement le monde des vidéos floues et pixellisées. Voici ce que l’on sait à son sujet. Adobe vient de lever le voile sur VideoGigaGAN, un nouveau…

IA 25/04/2024
Arnaque ou non ? La CPAM sème le doute en faisant signer ses courriers par un robot
Un assuré installé dans les Landes a reçu en janvier 2024 un courrier de la CPAM. Devant la signature étrange, il pense rapidement à une arnaque. Alors, escroquerie confirmée ou simple erreur de la caisse d’assurance maladie ? Bernard Larrat,…

IA 24/04/2024
Bonne nouvelle, l’IA Gemini de Google pourrait tourner sur votre vieux smartphone
Un récent changement dans l’intelligence artificielle Gemini de Google laisse penser qu’elle sera utilisable même sur des smartphones datant de plusieurs années. Pas besoin d’acheter le dernier modèle en date pour en profiter. Il n’y a pas si longtemps, Google…

IA 24/04/2024
IA : Photoshop peut générer des images à partir de textes, plus besoin de maîtriser l’outil
Grâce à l’intégration de l’intelligence artificielle directement dans Photoshop, le logiciel devient capable de créer des images à partir de requêtes écrites. Son utilisation est à la portée de tous. Adobe, entreprise connue pour ces logiciels de création comme Photoshop,…

IA 23/04/2024
Gemini : l’IA de Google va vous répondre encore plus rapidement qu’avant sur Android
Bonne nouvelle pour les utilisateurs de l’application Gemini, la nouvelle IA de Google, puisque le géant américain vient de la mettre à jour pour lui permettre de vous répondre « en temps réel ». L’assistant chatbot Gemini de Google n’a pas vraiment…

IA 22/04/2024
Taylor Swift : ce nouvel album divise les fans, aurait-il été généré par l’IA ?
Alors que le monde de la musique attend le nouvel album de Taylor Swift, “The Tortured Poets Department”, qui sortira aujourd’hui, le 19 avril, un étrange doppelgänger artificiel a fait son apparition sur les plateformes de streaming. Hier, les fans…

IA 19/04/2024
Une IA a réussi son premier combat aérien à face un pilote humain
La DARPA, l’agence américaine spécialisée dans le développement des technologies militaires, vient de faire part d’un succès important. Une IA intégrée dans un avion de chasse modifié est parvenu à affronter sans difficulté un pilote humain lors d’un entraînement au…

IA 18/04/2024

Newsletter