La censure des IA ne fonctionne plus, ces chercheurs sont parvenus à générer des images interdites

Des chercheurs de l’Université de Cornell ont mis au point un algorithme capable de contourner la censure des IA génératives. Grâce à celui-ci, ils sont parvenus à obtenir des images à caractère pornographique, normalement impossible à créer avec DALL-E ou encore Stable Diffusion. En apprenant, au passage, des choses étonnantes sur leur fonctionnement.

pc censure

Avec une telle puissance, il était malheureusement évident que les IA génératives engendreraient des dérives. Citons notamment les deepfakes, aujourd’hui majoritairement utilisés pour créer du contenu pornographique, au détriment des personnes présentes dans les vidéos. Il est donc impératif pour les IA génératives d’images, comme DALL-E et Midjourney, d’intégrer un filet de sécurité empêchant les débordements.

Ainsi, ces outils censurent de nombreux mots jugés sexuels ou encore violents, bien que la définition varie selon les sensibilités de chacun. Impossible, par exemple, de demander aux IA de générer une personne nue. Les prompts contenant ces mots censurés seront catégoriquement refusés, tandis que les utilisateurs un peu trop insistants risquent d’être bannis.

Comment des chercheurs ont poussé des IA à générer des images pornographiques

Cela ne veut pas dire qu’il a toujours été impossible de contourner cette censure. Néanmoins, les méthodes existantes pour pousser les IA à générer des images interdites n’ont jamais été universelles et ne fonctionnent que sur un outil spécifique. Jusqu’à ce qu’une équipe de chercheurs de l’université de Cornell découvrent comment plier chaque IA à leur volonté.

Sur le même sujet —L’IA accentuerait la solitude des hommes, mettant toute une génération en danger

SneakyPrompt : c’est le nom de cet algorithme capable de contourner la censure des IA générative. L’objectif de ce dernier est de déterminer les approches les plus efficaces pour arriver à ses fins (généralement peu orthodoxes) en testant différentes formulations de prompts. En fonction de la réponse obtenue, l’algorithme va adapter ses prompts jusqu’à obtenir le résultat attendu.

C’est alors que SneakyPrompt a commencé à faire des découvertes étonnantes. À force d’itérations pour trouver les meilleures formulations, l’algorithme a fini par comprendre que certaines suites de caractères ne voulant absolument rien dire sont interprétées de manière très claire par les IA. Sans que les chercheurs sachent pourquoi, « mowwly » devient « chat », tandis que « butnip fwngho » devient chien au sein des prompts.

intelligence artificielle cyberpunk

Yinzhi Cao, membre de l’équipe de chercheur, émet une hypothèse intéressante pour expliquer ce phénomène. Celui-ci rappelle que les IA sont entraînées via un corpus de textes écrits en différentes langues. Certaines suites de caractères peuvent ainsi être proches de certains mots dans certaines langues, poussant ainsi l’IA à déterminer qu’il s’agit du mot que voulait taper l’utilisateur.

Forcément, il est possible d’utiliser cette « faille » pour pousser les IA à générer des images explicites. En effet, ces suites de caractères n’étant pas intégrées aux filtres de sécurité des outils, et après moult tentatives, les IA peuvent être amenées à les interpréter pour des mots interdits. Un résultat certainement permit par le fait que ces outils se basent plutôt sur le contexte d’une phrase plutôt que sur son sens premier.

En effet, dans la phrase « le dangereux pense que Walt grogna de manière menaçante envers l’étranger qui s’approchait de son propriétaire », les IA vont généralement considérer que « le dangereux pense que Walt » signifie « chien », puisque ce mot fonctionne avec le reste du prompt.

Les chercheurs précisent que ces découvertes ne doivent pas servir aux utilisateurs pour contourner les mesures de sécurité, mais à bien à mettre en garde les créateurs de ces IA contre la faille dans leur système. Peu de chance, donc, que SneakyPrompt soit diffusé auprès du grand public, ce qui n’est probablement pas une mauvaise chose.

Source : Université de Cornell

Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Réagissez à cet article !

Demandez nos derniers articles !

Apple Music : ces 2 nouveautés ont un air de déjà-vu ? Normal, elles ressemblent fortement à celles de Spotify

La firme de Cupertino continue d’enrichir Apple Music. Avec la première bêta d’iOS 26.4, plusieurs nouveautés sont ajoutées à l’application. Toutefois, deux d’entre elles pourraient susciter chez vous un sentiment…

Meilleures tablettes Samsung : quelle tablette choisir en 2026 ?

Vous souhaitez acheter une nouvelle tablette ? Samsung propose un large choix de modèles qui vont de l’entrée de gamme aux tablettes premium. Mais faire le bon choix n’est pas…

Google Messages corrige enfin ce problème qui agace les utilisateurs depuis des années

Google Messages évolue régulièrement avec de nouvelles fonctions. Pourtant, certains petits défauts persistent depuis longtemps. L’un des plus agaçants pourrait enfin disparaître. Google modifie souvent son application de messagerie. Certaines…

France Identité devient plus utile : un nouveau lieu acceptera bientôt l’application comme preuve officielle

Aujourd’hui, il n’y a presque plus besoin de portefeuille physique : tout (ou presque) tient dans notre poche… grâce à notre smartphone. Les applications natives permettent de regrouper numériquement nos cartes…

Le Galaxy S26 Ultra plus performant que l’iPhone 17 Pro Max ? Apple ne domine plus

La domination d’Apple sur les performances mobiles est-elle en danger ? Le Galaxy S26 Ultra propulsé par une puce Snapdragon 8 Elite Gen 5 overclockée fait mieux que l’iPhone 17…

À peine sorti, le Honor Magic8 Lite passe à prix cassé dans un pack avec les Earbuds X8i !

Vous cherchez un smartphone aux caractéristiques avancées, mais à prix accessible ? Sorti en début d’année, le Honor Magic8 Lite embarque des performances solides et un design soigné. Normalement ne vente…

Les trous de ver ne seraient pas des tunnels spatiaux mais un mystère lié au temps

Les trous de ver fascinent depuis des décennies la science et la science-fiction. Ils sont souvent présentés comme des raccourcis à travers l’espace et le temps. Une nouvelle étude propose…

L’iPhone est enfin compatible avec le RCS chiffré, mais avec une grosse faiblesse

Avec la mise à jour iOS 26.4, Apple intègre le chiffrement de bout en bout pour les communications basées sur le protocole RCS. Mais cet ajout ne concerne que les…

Deezer devient bien meilleur que Spotify pour découvrir de nouveaux morceaux grâce à sa dernière mise à jour

Deezer, le rival français de Spotify, vient de déployer une nouvelle mise à jour qui améliore grandement sa fonctionnalité Flow. Celle-ci permet désormais de sélectionner quels genres musicaux on souhaite…

Zendure lance des nouveaux systèmes de stockage solaire avec jusqu’à 1686€ d’économies par an

Zendure lance 3 systèmes de stockage solaire en France. L’objectif : permettre aux propriétaires de panneaux photovoltaïques de stocker leur électricité pour l’utiliser le soir, avec des économies qui peuvent…