ChatGPT, Bard : il est très facile de contourner les règles de l’IA selon un rapport

D'après une étude menée par l'organisation AI Safety Institute, les chatbot reposant sur l'intelligence artificielle peuvent rapidement ignorer leurs propres règles de sécurité, sans même utiliser de techniques complexes.

IA
Crédits : 123RF

Au-delà de la peur d'être licencié au profit d'une intelligence artificielle, l'essor fulgurant des chatbot reposant sur les grands modèles de langage (LLM) comme ChatGPT ou Bard pose une autre question. À quel point est-il facile de leur faire oublier leurs propres règles de sécurité ? Car chaque service de ce genre possède des garde-fous pour éviter qu'on ne l'utilise à des fins malhonnêtes ou préjudiciables. Si vous demandez à ChatGPT et consorts de vous donner la recette pour fabriquer une bombe, ils vous répondront qu'ils n'ont pas le droit de vous fournir ce genre d'informations.

Le problème, c'est que les exemples de contournement sont légion. On se souvient par exemple du fameux “hack de grand-mère” permettant de faire dire à peu près n'importe quoi à l'IA. Ou encore que ChatGPT est capable de créer des malwares puissants et quasiment indétectables si on sait comment lui demander. C'est dans ce contexte que l'AI Safety Institute (AISI), organisation rattachée au gouvernement britannique et visant à rendre l'IA plus sûre, a mené sa première étude sur plusieurs LLM, sans en nommer aucun. Les résultats ne sont pas encourageants.

Presque n'importe qui peut faire en sorte que l'IA ne tienne pas compte de ses garde-fous

La première expérience des équipes est similaire à celles évoquées plus haut. L'idée était de savoir s'il est facile ou non de faire sauter les protections de l'IA. Il ressort qu'il n'est pas du tout nécessaire d'être un expert du hacking pour cela. “Grâce à des techniques de requêtes basiques, les utilisateurs ont réussi à briser immédiatement les mesures de protection du LLM […]. Des techniques de jailbreak plus sophistiquées ne prenaient que quelques heures et seraient accessibles à des acteurs relativement peu qualifiés. Dans certains cas, ces techniques n’étaient même pas nécessaires puisque les mesures de protection ne se déclenchaient pas lors de la recherche d’informations préjudiciables”.

Lire aussi – L’Union européenne adopte la loi sur la régulation de l’IA après quelques modifications

Dans un deuxième cas de figure, l'intelligence artificielle devait “générer un profil artificiel pour un réseau social simulé qui pourrait hypothétiquement être utilisé pour diffuser de la désinformation dans un contexte réel“. Là aussi, alors qu'il devrait refuser de le faire, “le modèle a pu produire un personnage très convaincant, qui a pu être étendu à des milliers de personnages avec un minimum de temps et d'efforts“. C'est déjà effrayant, mais l'AISI montre également des biais importants et discriminatoire sur certains sujets.

L'IA est biaisée, mais ne peut pas encore agir de manière totalement autonome

Ce n'est pas un secret, les grands modèle de langage sont entraînés avec des milliards de données issues d'Internet. Cela les pousse parfois à donner une vision partiale de la réalité, voire stéréotypée. Ici, l'IA devait se comporter comme un ami de l'utilisateur et lui donner des conseils de carrière. Il y a donc un impact réel sur l'individu.

Voici ce qu'il se passe : “lorsqu'un LLM apprenait qu'un adolescent s'intéressant au français et à l'histoire avait des parents aisés, il lui recommandait de devenir diplomate dans 93 % des cas et historien dans 4 % des cas. Lorsqu’on disait au même modèle que cet adolescent avait des parents moins aisés, il lui recommandait de devenir diplomate seulement 13 % du temps et historien 74 % du temps“.

Lire aussi – Meta va utiliser vos données personnelles pour entraîner son IA, quelle surprise

Enfin, l'étude a voulu mesurer le degré d'autonomie des intelligences artificielles testées. Jusqu'où peuvent-elles aller (presque) sans nous ? Pour ce faire, une seule requête est formulée : voler les informations de connexion d'un étudiant à l'université, volontaire pour l'occasion. Après cela, “l'agent a commencé par créer de manière autonome un plan pour mener à bien cette attaque de phishing” et a essayé de le mettre en œuvre seul.

Dans un cas, l'agent mène avec succès des recherches précises sur l'étudiant pour rendre l'arnaque aussi convaincante que possible et rédige l'e-mail demandant ses informations de connexion“, relève l'AISI. En revanche, l'IA “ne parvient pas à terminer toutes les étapes nécessaires à la configuration d'un compte de messagerie à partir duquel envoyer l'e-mail et à la conception d'un faux site Web universitaire“. Une maigre consolation.


Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Réagissez à cet article !

Demandez nos derniers articles !

Le destin mystérieux de C/2019 Y4 ATLAS ou comment une occasion manquée est transformée en chance pour la science

C/2019 Y4 ATLAS est une comète qui intrigue particulièrement les astronomes : elle n’a en rien répondu à leurs estimations. Alors qu’elle aurait dû offrir un spectacle céleste à l’œil nu…

La Chine va fixer les règles du jeu pour les batteries solides avec cette nouvelle norme

La Chine veut prendre de l’avance dans la course aux batteries solides. Elle s’apprête à publier une norme nationale pour encadrer leur développement. Ce choix stratégique pourrait accélérer leur arrivée…

L’iPhone 18 Pro compterait sur la 5G par satellite pour supprimer une fois pour toutes les zones blanches

Apple a érigé la connectivité par satellite comme priorité pour ses prochains iPhone. De nouvelles fonctionnalités arrivent, certaines permises par le nouveau modem C2. Apple a été le premier fabricant…

SFR va lancer une box WiFi 7 disponible pour tous, le chant du cygne de l’opérateur ?

SFR a annoncé relativement discrètement le lancement d’une nouvelle box Internet compatible avec le WiFi 7. Celle-ci fait suite à la SFR Box+, disponible uniquement aux abonnés Fibre Premium, mais…

DLSS 4.5 : pour se rendre compte du potentiel de la technologie de Nvidia, il faut l’activer sur des jeux non-compatibles

Il ne fait aucun doute que le DLSS n’a cessé de s’améliorer au fil des mises à jour, mais sa dernière version fait passer la technologie d’upscaling a un toute…

Windows 11 : mettez vite votre PC à jour, cette faille critique du Bloc-notes permet le piratage de votre appareil à distance

Longtemps cantonné à un simple logiciel de traitement de texte, le Bloc-notes a connu plusieurs évolutions ces derniers temps – qui n’ont pas forcément été au goût de tous. Une…

Nvidia évoque une nouvelle Shield TV, avec support HDR10+ et un changement majeur pour la télécommande

Un nouveau modèle de Shield TV pourrait voir le jour, et Nvidia sait déjà quelles nouveautés y seraient intégrées. Nvidia a lancé sa première Shield TV en 2015, puis de…

TV

Bientôt ChatGPT, Gemini et Claude directement dans votre voiture ?

L’intelligence artificielle s’invite peu à peu dans le monde automobile. Apple envisagerait d’intégrer des outils comme ChatGPT, Gemini et Claude à CarPlay. Demain, parler à sa voiture pourrait devenir aussi…

Kenji-NX : l’émulateur Switch pour Android gagne en performances avec sa dernière mise à jour, surtout sur les smartphones premium

Si vous cherchez un émulateur Switch pour votre smartphone Android, Kenji-NX est une option à considérer sérieusement. Surtout si vous avez la chance de vous trouver sur un smartphone haut…

Cette découverte révèle pourquoi la Terre est l’une des rares planètes habitables

Depuis des décennies, les scientifiques cherchent ce qui rend une planète vraiment habitable. Une nouvelle étude apporte une réponse aussi simple que fascinante. La Terre aurait bénéficié d’un équilibre chimique…