Comment empêcher l’IA de répondre à des demandes interdites ? Ces scientifiques pensent avoir trouvé la solution

Une équipe de chercheurs a trouvé un moyen d'empêcher le détournement de l'IA pour qu'elle répondent à des demandes normalement illégales. Les premiers résultats sont encourageants.

L'intelligence artificielle n'est pas infaillible. Techniquement, chaque modèle est conçu de sorte qu'il ne puisse pas répondre à des requêtes définies comme interdites. C'est pour ça que ChatGPT, par exemple, refuse de vous aider à développer un malware ou trouver des sites pour télécharger un film illégalement. Dans les faits, on sait que détourner une IA à des fins parfois criminelles n'est pas si compliqué que ça.

Quand cela arrive, les développeurs revoient leur copie et déploient rapidement un correctif. Mais pour une équipe de l'Université de Californie à Riverside, c'est prendre le problème par le mauvais bout. Elle se base sur l'exemple des IA open source, c'est-à-dire accessibles et modifiables par n'importe qui. Elles peuvent ainsi être amputées de plusieurs fonctionnalités, dont celles qui les empêchent de répondre à tout et n'importe quoi. Que faire dans ce genre de cas ? La solution envisagée est au final assez simple.

Cette méthode permet de rendre l'utilisation des IA plus sûres

Les chercheurs ont réentraîné le cœur d'une IA pour que cette dernière “n’oublie pas comment se comporter en toute sécurité” même une fois dépouillée de ses systèmes de sécurité, explique Saketh Bachu, co-auteur principal de l’étude. En guise de test, l'équipe a utilisé le modèle open source LLaVA 1.5. D'abord, elle a confirmé des comportements problématiques. En combinant une image banale et une question normalement interdite, l'IA a donné la recette pour fabriquer une bombe par exemple.

Après un nouvel entraînement de sa structure principale, le modèle a cette fois-ci refusé de répondre à des requêtes dangereuses, bien que réduit à sa plus simple expression. “Il ne s'agit pas d'ajouter des filtres ou des garde-fous externes. Nous modifions la compréhension interne du modèle, afin qu'il fonctionne correctement par défaut, même après modification“, résume Bachu. L'étudiant diplômé de l'Université de Californie à Riverside est conscient qu'il s'agit seulement d'un premier pas, mais il reste encourageant.

Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Newsletter

Inscrivez-vous à la newsletter de PhonAndroid, des news sans pub rien que pour vous !

Comment empêcher l’IA de répondre à des demandes interdites ? Ces scientifiques pensent avoir trouvé la solution

Cette méthode permet de rendre l'utilisation des IA plus sûres

La rédaction vous conseille aussi...

Abonnez-vous gratuitement à la newsletter

Réagissez à cet article !

Demandez nos derniers articles !

Jusqu’à 180 euros plus cher : le prix des Galaxy S26 fait mal au portefeuille

Galaxy Buds 4 et Buds 4 Pro : où précommander les écouteurs Samsung au meilleur prix ?

Now Nudge arrive sur les Samsung Galaxy pour vous faciliter la vie : comment ça marche ?

Le Galaxy S26 anticipe nos besoins, et ça change tout dans notre usage du smartphone

Galaxy S26 : Boulanger casse déjà les prix avec ces offres de lancement, vite !

Samsung lance les précommandes des Galaxy S26 avec de fortes réductions

Samsung Galaxy S26 : date de sortie, prix, fiche technique… tout savoir sur les derniers smartphones premium

Test Samsung Galaxy Buds4 Pro : le nouveau monstre de basses de Samsung qui veut faire oublier Apple

Les Galaxy Buds4 et Buds4 Pro sont officiels, Samsung cible carrément les AirPods d’Apple

Privacy Display : pourquoi cette fonction est-elle réservée au S26 Ultra ?