Comment empêcher l’IA de répondre à des demandes interdites ? Ces scientifiques pensent avoir trouvé la solution

Une équipe de chercheurs a trouvé un moyen d'empêcher le détournement de l'IA pour qu'elle répondent à des demandes normalement illégales. Les premiers résultats sont encourageants.

Empêcher le détournement de l'IA
Crédits : 123RF

L'intelligence artificielle n'est pas infaillible. Techniquement, chaque modèle est conçu de sorte qu'il ne puisse pas répondre à des requêtes définies comme interdites. C'est pour ça que ChatGPT, par exemple, refuse de vous aider à développer un malware ou trouver des sites pour télécharger un film illégalement. Dans les faits, on sait que détourner une IA à des fins parfois criminelles n'est pas si compliqué que ça.

Quand cela arrive, les développeurs revoient leur copie et déploient rapidement un correctif. Mais pour une équipe de l'Université de Californie à Riverside, c'est prendre le problème par le mauvais bout. Elle se base sur l'exemple des IA open source, c'est-à-dire accessibles et modifiables par n'importe qui. Elles peuvent ainsi être amputées de plusieurs fonctionnalités, dont celles qui les empêchent de répondre à tout et n'importe quoi. Que faire dans ce genre de cas ? La solution envisagée est au final assez simple.

Cette méthode permet de rendre l'utilisation des IA plus sûres

Les chercheurs ont réentraîné le cœur d'une IA pour que cette dernière “n’oublie pas comment se comporter en toute sécurité” même une fois dépouillée de ses systèmes de sécurité, explique Saketh Bachu, co-auteur principal de l’étude. En guise de test, l'équipe a utilisé le modèle open source LLaVA 1.5. D'abord, elle a confirmé des comportements problématiques. En combinant une image banale et une question normalement interdite, l'IA a donné la recette pour fabriquer une bombe par exemple.

Lire aussi – Voici comment des chercheurs ont fait céder ChatGPT à des demandes interdites

Après un nouvel entraînement de sa structure principale, le modèle a cette fois-ci refusé de répondre à des requêtes dangereuses, bien que réduit à sa plus simple expression. “Il ne s'agit pas d'ajouter des filtres ou des garde-fous externes. Nous modifions la compréhension interne du modèle, afin qu'il fonctionne correctement par défaut, même après modification“, résume Bachu. L'étudiant diplômé de l'Université de Californie à Riverside est conscient qu'il s'agit seulement d'un premier pas, mais il reste encourageant.


Réagissez à cet article !

Demandez nos derniers articles !

Marvel’s Wolverine : tout ce que l’on sait déjà sur la plus grosse exclusivité PlayStation 5 de 2026

Marvel’s Wolverine est sans doute le jeu sur lequel Sony mise le plus depuis de longues années. En fait, c’est très probablement trois ans depuis la sortie de Marvel’s Spider-Man…

Microsoft recommence : Copilot va s’installer automatiquement sur certains PC Windows 11

Microsoft 365 Copilot va bientôt s’installer automatiquement sur certains PC. Après une courte pause, la firme de Redmond vient d’annoncer le retour de cette fonctionnalité sur Windows 11. Une nouvelle…

Canal+, beIN Sports, Ligue 1+ : un énorme réseau d’IPTV illégale vient de tomber

L’IPTV illégale, c’est fini pour des centaines de milliers d’utilisateurs. Les forces de l’ordre ont en effet fait fermer un réseau IPTV pirate, qui permettait d’avoir accès à de grandes…

TV

La pénurie de puces d’IA pourrait durer des années, le plus gros fabricant au monde tire la sonnette d’alarme

La pénurie de composants, tels que les puces d’intelligence artificielle, ne fait que commencer. C’est en substance ce que laisse entendre le plus gros fabricant de semi-conducteurs au monde… L’émergence…

Trous noirs : un mystère vieux de 50 ans vient peut-être d’être résolu par les astronomes

En son centre, notre Voie lactée possède un immense trou noir supermassif, Sagittarius A*. En analysant ce dernier, les chercheurs ont mis en évidence un phénomène cosmique particulièrement fascinant… Étoiles…

Dernière chance : Surfshark VPN offre 4 mois et jusqu’à 88 % de réduction, la promo touche à sa fin

Si vous envisagiez de vous équiper d’un VPN à petit prix, il ne reste plus beaucoup de temps pour profiter de cette offre exclusive sur Surfshark. Elle affiche 88 %…

Odyssey OLED G7 : Samsung offre près de 350 € de réduction sur son nouvel écran gaming 4K

Samsung vient tout juste de lancer une nouvelle génération d’écrans gaming, dont l’Odyssey OLED G7 de 32 pouces qui fait l’objet d’une offre de lancement généreuse. Une double remise fait ainsi…

Covid-19 : ce vaccin révolutionnaire boosté à l’IA pourrait changer la donne

L’intelligence artificielle s’immisce toujours plus loin dans le domaine de la santé. Grâce à l’IA, des chercheurs affirment avoir réussi à mettre au point un vaccin expérimental capable de lutter…

IA

Votre smartphone peut-il être saisi à l’aéroport ? Cette affaire relance le débat

Confier son téléphone aux services des douanes n’est pas toujours une bonne idée. Une Américaine en a fait les frais : son smartphone a été confisqué, et ne lui a…

Avengers Doomsday est un reboot du MCU : “on repart de zéro”

On se demandait où allait le MCU, apparemment, les frères Russo aussi. Ils annoncent repartir de zéro avec Avengers Doomsday. Depuis la sortie d’Avengers Endgame, Disney a bien du mal…