La censure des IA ne fonctionne plus, ces chercheurs sont parvenus à générer des images interdites

Des chercheurs de l’Université de Cornell ont mis au point un algorithme capable de contourner la censure des IA génératives. Grâce à celui-ci, ils sont parvenus à obtenir des images à caractère pornographique, normalement impossible à créer avec DALL-E ou encore Stable Diffusion. En apprenant, au passage, des choses étonnantes sur leur fonctionnement.

pc censure

Avec une telle puissance, il était malheureusement évident que les IA génératives engendreraient des dérives. Citons notamment les deepfakes, aujourd’hui majoritairement utilisés pour créer du contenu pornographique, au détriment des personnes présentes dans les vidéos. Il est donc impératif pour les IA génératives d’images, comme DALL-E et Midjourney, d’intégrer un filet de sécurité empêchant les débordements.

Ainsi, ces outils censurent de nombreux mots jugés sexuels ou encore violents, bien que la définition varie selon les sensibilités de chacun. Impossible, par exemple, de demander aux IA de générer une personne nue. Les prompts contenant ces mots censurés seront catégoriquement refusés, tandis que les utilisateurs un peu trop insistants risquent d’être bannis.

Comment des chercheurs ont poussé des IA à générer des images pornographiques

Cela ne veut pas dire qu’il a toujours été impossible de contourner cette censure. Néanmoins, les méthodes existantes pour pousser les IA à générer des images interdites n’ont jamais été universelles et ne fonctionnent que sur un outil spécifique. Jusqu’à ce qu’une équipe de chercheurs de l’université de Cornell découvrent comment plier chaque IA à leur volonté.

Sur le même sujet —L’IA accentuerait la solitude des hommes, mettant toute une génération en danger

SneakyPrompt : c’est le nom de cet algorithme capable de contourner la censure des IA générative. L’objectif de ce dernier est de déterminer les approches les plus efficaces pour arriver à ses fins (généralement peu orthodoxes) en testant différentes formulations de prompts. En fonction de la réponse obtenue, l’algorithme va adapter ses prompts jusqu’à obtenir le résultat attendu.

C’est alors que SneakyPrompt a commencé à faire des découvertes étonnantes. À force d’itérations pour trouver les meilleures formulations, l’algorithme a fini par comprendre que certaines suites de caractères ne voulant absolument rien dire sont interprétées de manière très claire par les IA. Sans que les chercheurs sachent pourquoi, « mowwly » devient « chat », tandis que « butnip fwngho » devient chien au sein des prompts.

intelligence artificielle cyberpunk

Yinzhi Cao, membre de l’équipe de chercheur, émet une hypothèse intéressante pour expliquer ce phénomène. Celui-ci rappelle que les IA sont entraînées via un corpus de textes écrits en différentes langues. Certaines suites de caractères peuvent ainsi être proches de certains mots dans certaines langues, poussant ainsi l’IA à déterminer qu’il s’agit du mot que voulait taper l’utilisateur.

Forcément, il est possible d’utiliser cette « faille » pour pousser les IA à générer des images explicites. En effet, ces suites de caractères n’étant pas intégrées aux filtres de sécurité des outils, et après moult tentatives, les IA peuvent être amenées à les interpréter pour des mots interdits. Un résultat certainement permit par le fait que ces outils se basent plutôt sur le contexte d’une phrase plutôt que sur son sens premier.

En effet, dans la phrase « le dangereux pense que Walt grogna de manière menaçante envers l’étranger qui s’approchait de son propriétaire », les IA vont généralement considérer que « le dangereux pense que Walt » signifie « chien », puisque ce mot fonctionne avec le reste du prompt.

Les chercheurs précisent que ces découvertes ne doivent pas servir aux utilisateurs pour contourner les mesures de sécurité, mais à bien à mettre en garde les créateurs de ces IA contre la faille dans leur système. Peu de chance, donc, que SneakyPrompt soit diffusé auprès du grand public, ce qui n’est probablement pas une mauvaise chose.

Source : Université de Cornell

Abonnez-vous gratuitement à la newsletter
Chaque jour, le meilleur de Phonandroid dans votre boite mail !
Réagissez à cet article !
Demandez nos derniers articles !