Comment empêcher l’IA de répondre à des demandes interdites ? Ces scientifiques pensent avoir trouvé la solution

Une équipe de chercheurs a trouvé un moyen d'empêcher le détournement de l'IA pour qu'elle répondent à des demandes normalement illégales. Les premiers résultats sont encourageants.

Empêcher le détournement de l'IA
Crédits : 123RF

L'intelligence artificielle n'est pas infaillible. Techniquement, chaque modèle est conçu de sorte qu'il ne puisse pas répondre à des requêtes définies comme interdites. C'est pour ça que ChatGPT, par exemple, refuse de vous aider à développer un malware ou trouver des sites pour télécharger un film illégalement. Dans les faits, on sait que détourner une IA à des fins parfois criminelles n'est pas si compliqué que ça.

Quand cela arrive, les développeurs revoient leur copie et déploient rapidement un correctif. Mais pour une équipe de l'Université de Californie à Riverside, c'est prendre le problème par le mauvais bout. Elle se base sur l'exemple des IA open source, c'est-à-dire accessibles et modifiables par n'importe qui. Elles peuvent ainsi être amputées de plusieurs fonctionnalités, dont celles qui les empêchent de répondre à tout et n'importe quoi. Que faire dans ce genre de cas ? La solution envisagée est au final assez simple.

Cette méthode permet de rendre l'utilisation des IA plus sûres

Les chercheurs ont réentraîné le cœur d'une IA pour que cette dernière “n’oublie pas comment se comporter en toute sécurité” même une fois dépouillée de ses systèmes de sécurité, explique Saketh Bachu, co-auteur principal de l’étude. En guise de test, l'équipe a utilisé le modèle open source LLaVA 1.5. D'abord, elle a confirmé des comportements problématiques. En combinant une image banale et une question normalement interdite, l'IA a donné la recette pour fabriquer une bombe par exemple.

Lire aussi – Voici comment des chercheurs ont fait céder ChatGPT à des demandes interdites

Après un nouvel entraînement de sa structure principale, le modèle a cette fois-ci refusé de répondre à des requêtes dangereuses, bien que réduit à sa plus simple expression. “Il ne s'agit pas d'ajouter des filtres ou des garde-fous externes. Nous modifions la compréhension interne du modèle, afin qu'il fonctionne correctement par défaut, même après modification“, résume Bachu. L'étudiant diplômé de l'Université de Californie à Riverside est conscient qu'il s'agit seulement d'un premier pas, mais il reste encourageant.


Abonnez-vous gratuitement à la newsletter
Chaque jour, le meilleur de Phonandroid dans votre boite mail !
Réagissez à cet article !
Demandez nos derniers articles !