Comment empêcher l’IA de répondre à des demandes interdites ? Ces scientifiques pensent avoir trouvé la solution

Une équipe de chercheurs a trouvé un moyen d'empêcher le détournement de l'IA pour qu'elle répondent à des demandes normalement illégales. Les premiers résultats sont encourageants.

Empêcher le détournement de l'IA
Crédits : 123RF

L'intelligence artificielle n'est pas infaillible. Techniquement, chaque modèle est conçu de sorte qu'il ne puisse pas répondre à des requêtes définies comme interdites. C'est pour ça que ChatGPT, par exemple, refuse de vous aider à développer un malware ou trouver des sites pour télécharger un film illégalement. Dans les faits, on sait que détourner une IA à des fins parfois criminelles n'est pas si compliqué que ça.

Quand cela arrive, les développeurs revoient leur copie et déploient rapidement un correctif. Mais pour une équipe de l'Université de Californie à Riverside, c'est prendre le problème par le mauvais bout. Elle se base sur l'exemple des IA open source, c'est-à-dire accessibles et modifiables par n'importe qui. Elles peuvent ainsi être amputées de plusieurs fonctionnalités, dont celles qui les empêchent de répondre à tout et n'importe quoi. Que faire dans ce genre de cas ? La solution envisagée est au final assez simple.

Cette méthode permet de rendre l'utilisation des IA plus sûres

Les chercheurs ont réentraîné le cœur d'une IA pour que cette dernière “n’oublie pas comment se comporter en toute sécurité” même une fois dépouillée de ses systèmes de sécurité, explique Saketh Bachu, co-auteur principal de l’étude. En guise de test, l'équipe a utilisé le modèle open source LLaVA 1.5. D'abord, elle a confirmé des comportements problématiques. En combinant une image banale et une question normalement interdite, l'IA a donné la recette pour fabriquer une bombe par exemple.

Lire aussi – Voici comment des chercheurs ont fait céder ChatGPT à des demandes interdites

Après un nouvel entraînement de sa structure principale, le modèle a cette fois-ci refusé de répondre à des requêtes dangereuses, bien que réduit à sa plus simple expression. “Il ne s'agit pas d'ajouter des filtres ou des garde-fous externes. Nous modifions la compréhension interne du modèle, afin qu'il fonctionne correctement par défaut, même après modification“, résume Bachu. L'étudiant diplômé de l'Université de Californie à Riverside est conscient qu'il s'agit seulement d'un premier pas, mais il reste encourageant.


Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Réagissez à cet article !

Demandez nos derniers articles !

Jusqu’à 180 euros plus cher : le prix des Galaxy S26 fait mal au portefeuille

Les prix des Galaxy S26 sont officiels, ils sont bien plus élevés que ceux des Galaxy S25. On a calculé la différence tarifaire pour chaque modèle et configuration.   Les Galaxy…

Galaxy Buds 4 et Buds 4 Pro : où précommander les écouteurs Samsung au meilleur prix ?

Samsung vient d’annoncer la sortie de ses nouveaux écouteurs, les Galaxy Buds 4 et Buds 4 Pro. Très attendue, cette nouvelle génération offre un design complètement repensé et des nouveautés…

Now Nudge arrive sur les Samsung Galaxy pour vous faciliter la vie : comment ça marche ?

Finalement, la fonctionnalité Now Nudge arrivera bien sur One UI 8.5. Une bonne surprise pour les utilisateurs en parallèle de la sortie des Galaxy S26. Maintenant qu’elle est officielle, voyons…

Le Galaxy S26 anticipe nos besoins, et ça change tout dans notre usage du smartphone

Samsung a présenté une nouvelle fonctionnalité basée sur l’IA pour ses Galaxy S26. L’automatisation des requêtes permet de valider des actions proposées par le système pour nous faire gagner du…

Galaxy S26 : Boulanger casse déjà les prix avec ces offres de lancement, vite !

Les Galaxy S26, S26+ et S26 Ultra viennent tout juste de rejoindre la grande famille des smartphones Samsung et, pour fêter cette sortie, Boulanger dévoile des offres irrésistibles pour vous…

Samsung lance les précommandes des Galaxy S26 avec de fortes réductions

Samsung frappe fort pour le lancement des Galaxy S26, S26+ et S26 Ultra avec des réduction inédites lors des précommandes. Voici comment profiter de cette promotion à durée limitée. Voir…

Samsung Galaxy S26 : date de sortie, prix, fiche technique… tout savoir sur les derniers smartphones premium

Dans un marché tendu, Samsung renouvelle sa gamme premium avec les Galaxy S26, S26+ et S26 Ultra. Ces modèles valent-ils le coup ? Design, performances, autonomie, photo, voici tout ce…

Test Samsung Galaxy Buds4 Pro : le nouveau monstre de basses de Samsung qui veut faire oublier Apple

Présentés en même temps que les Galaxy Buds4 et les Galaxy S26, S26+ et S26 Ultra, les Galaxy Buds4 Pro sont positionnés pour affronter les AirPods Pro 3 d’Apple. Le…

Les Galaxy Buds4 et Buds4 Pro sont officiels, Samsung cible carrément les AirPods d’Apple

Lors de sa première conférence Unpacked de 2026, Samsung a officialisé trois Galaxy S26, mais pas uniquement. La firme coréenne a également présenté deux nouvelles paires d’écouteurs : les Galaxy…

Privacy Display : pourquoi cette fonction est-elle réservée au S26 Ultra ?

Les Galaxy S26 sont officiels ! Avec eux débarque le Privacy Display. Une fonctionnalité exclusive au modèle Ultra, le plus onéreux de la gamme. Pourquoi cette chasse gardée ? Il…