Comment empêcher l’IA de répondre à des demandes interdites ? Ces scientifiques pensent avoir trouvé la solution

Une équipe de chercheurs a trouvé un moyen d'empêcher le détournement de l'IA pour qu'elle répondent à des demandes normalement illégales. Les premiers résultats sont encourageants.

Empêcher le détournement de l'IA
Crédits : 123RF

L'intelligence artificielle n'est pas infaillible. Techniquement, chaque modèle est conçu de sorte qu'il ne puisse pas répondre à des requêtes définies comme interdites. C'est pour ça que ChatGPT, par exemple, refuse de vous aider à développer un malware ou trouver des sites pour télécharger un film illégalement. Dans les faits, on sait que détourner une IA à des fins parfois criminelles n'est pas si compliqué que ça.

Quand cela arrive, les développeurs revoient leur copie et déploient rapidement un correctif. Mais pour une équipe de l'Université de Californie à Riverside, c'est prendre le problème par le mauvais bout. Elle se base sur l'exemple des IA open source, c'est-à-dire accessibles et modifiables par n'importe qui. Elles peuvent ainsi être amputées de plusieurs fonctionnalités, dont celles qui les empêchent de répondre à tout et n'importe quoi. Que faire dans ce genre de cas ? La solution envisagée est au final assez simple.

Cette méthode permet de rendre l'utilisation des IA plus sûres

Les chercheurs ont réentraîné le cœur d'une IA pour que cette dernière “n’oublie pas comment se comporter en toute sécurité” même une fois dépouillée de ses systèmes de sécurité, explique Saketh Bachu, co-auteur principal de l’étude. En guise de test, l'équipe a utilisé le modèle open source LLaVA 1.5. D'abord, elle a confirmé des comportements problématiques. En combinant une image banale et une question normalement interdite, l'IA a donné la recette pour fabriquer une bombe par exemple.

Lire aussi – Voici comment des chercheurs ont fait céder ChatGPT à des demandes interdites

Après un nouvel entraînement de sa structure principale, le modèle a cette fois-ci refusé de répondre à des requêtes dangereuses, bien que réduit à sa plus simple expression. “Il ne s'agit pas d'ajouter des filtres ou des garde-fous externes. Nous modifions la compréhension interne du modèle, afin qu'il fonctionne correctement par défaut, même après modification“, résume Bachu. L'étudiant diplômé de l'Université de Californie à Riverside est conscient qu'il s'agit seulement d'un premier pas, mais il reste encourageant.


Réagissez à cet article !

Demandez nos derniers articles !

Il faut 2 minutes pour pirater l’appli de vérification de l’âge de l’Union européenne

À peine 3 jours après son lancement, un expert en cybersécurité montre à quel point il est facile de passer outre les protections de l’application européenne censée permettre la vérification…

Deal Stellantis-Microsoft : votre prochaine Peugeot pourrait bientôt vous dire elle-même quand aller chez le garagiste

Stellantis vient de signer un partenariat de cinq ans avec Microsoft pour intégrer l’IA partout dans son activité. Sur votre tableau de bord comme dans les bureaux de la direction,…

Android 17 : l’ultime bêta est là, Google mise tout sur la sécurité et la stabilité pour les utilisateurs

C’est maintenant au tour de la quatrième bêta d’Android 17 d’être déployée. Elle marque là encore une étape cruciale dans le développement de la plateforme puisqu’il s’agit de la dernière…

Voici la date de sortie du film Call of Duty, il va falloir être patient

Annoncé fin 2025, le film adapté de la série de jeux vidéo Call of Duty ne faisait plus parler de lui. Il revient sur le devant de la scène avec…

OnePlus : un nouvel indice vient confirmer que l’abandon du marché européen est imminent

Bien que la chose ne soit pas encore officielle, il n’y a désormais que très peu de doutes quant au départ prochain de OnePlus du marché européen. Un récent post…

Ces 75 000 pirates amateurs ne s’attendaient pas à recevoir ce message d’Europol dans leur boîte mail

Ils pensaient pouvoir lancer des cyberattaques en toute impunité depuis leur canapé. Europol vient de leur prouver le contraire avec une opération d’une ampleur inattendue. Des dizaines de milliers de…

Attention à cette arnaque à l’entretien d’embauche visant macOS

Microsoft et Apple mettent en garde les utilisateurs de macOS. Déguisée en entretien d’embauche, une escroquerie pirate le système pour dérober vos données personnelles. Il faut se méfier de tout…

20 milliards d’euros : Orange, Free et Bouygues sont en négociations exclusives avec Altice pour racheter SFR

Après une première offre rejetée en octobre dernier, le Consortium composé d’Orange, de Bouygues Telecom et de Free annonce entrer en négociations exclusives avec le groupe Altice France pour le…

Les Samsung Galaxy S27 seraient beaucoup plus rapides que les S26 grâce à cette amélioration inattendue

Il se murmure que Samsung aurait opté pour un nouveau composant surprise à intégrer à son futur Galaxy S27. Ce dernier aura un impact considérable sur la rapidité et le…

Les utilisateurs de smartphones restent de plus en plus chez la même marque (mais préfèrent toujours les iPhone)

Une nouvelle étude montre que les utilisateurs n’ont jamais été aussi loyaux qu’aujourd’hui envers leur marque de smartphone préférée. Ces derniers passent de moins en moins chez la concurrence. Mais…