La censure des IA ne fonctionne plus, ces chercheurs sont parvenus à générer des images interdites

Des chercheurs de l’Université de Cornell ont mis au point un algorithme capable de contourner la censure des IA génératives. Grâce à celui-ci, ils sont parvenus à obtenir des images à caractère pornographique, normalement impossible à créer avec DALL-E ou encore Stable Diffusion. En apprenant, au passage, des choses étonnantes sur leur fonctionnement.

pc censure

Avec une telle puissance, il était malheureusement évident que les IA génératives engendreraient des dérives. Citons notamment les deepfakes, aujourd’hui majoritairement utilisés pour créer du contenu pornographique, au détriment des personnes présentes dans les vidéos. Il est donc impératif pour les IA génératives d’images, comme DALL-E et Midjourney, d’intégrer un filet de sécurité empêchant les débordements.

Ainsi, ces outils censurent de nombreux mots jugés sexuels ou encore violents, bien que la définition varie selon les sensibilités de chacun. Impossible, par exemple, de demander aux IA de générer une personne nue. Les prompts contenant ces mots censurés seront catégoriquement refusés, tandis que les utilisateurs un peu trop insistants risquent d’être bannis.

Comment des chercheurs ont poussé des IA à générer des images pornographiques

Cela ne veut pas dire qu’il a toujours été impossible de contourner cette censure. Néanmoins, les méthodes existantes pour pousser les IA à générer des images interdites n’ont jamais été universelles et ne fonctionnent que sur un outil spécifique. Jusqu’à ce qu’une équipe de chercheurs de l’université de Cornell découvrent comment plier chaque IA à leur volonté.

Sur le même sujet —L’IA accentuerait la solitude des hommes, mettant toute une génération en danger

SneakyPrompt : c’est le nom de cet algorithme capable de contourner la censure des IA générative. L’objectif de ce dernier est de déterminer les approches les plus efficaces pour arriver à ses fins (généralement peu orthodoxes) en testant différentes formulations de prompts. En fonction de la réponse obtenue, l’algorithme va adapter ses prompts jusqu’à obtenir le résultat attendu.

C’est alors que SneakyPrompt a commencé à faire des découvertes étonnantes. À force d’itérations pour trouver les meilleures formulations, l’algorithme a fini par comprendre que certaines suites de caractères ne voulant absolument rien dire sont interprétées de manière très claire par les IA. Sans que les chercheurs sachent pourquoi, « mowwly » devient « chat », tandis que « butnip fwngho » devient chien au sein des prompts.

intelligence artificielle cyberpunk

Yinzhi Cao, membre de l’équipe de chercheur, émet une hypothèse intéressante pour expliquer ce phénomène. Celui-ci rappelle que les IA sont entraînées via un corpus de textes écrits en différentes langues. Certaines suites de caractères peuvent ainsi être proches de certains mots dans certaines langues, poussant ainsi l’IA à déterminer qu’il s’agit du mot que voulait taper l’utilisateur.

Forcément, il est possible d’utiliser cette « faille » pour pousser les IA à générer des images explicites. En effet, ces suites de caractères n’étant pas intégrées aux filtres de sécurité des outils, et après moult tentatives, les IA peuvent être amenées à les interpréter pour des mots interdits. Un résultat certainement permit par le fait que ces outils se basent plutôt sur le contexte d’une phrase plutôt que sur son sens premier.

En effet, dans la phrase « le dangereux pense que Walt grogna de manière menaçante envers l’étranger qui s’approchait de son propriétaire », les IA vont généralement considérer que « le dangereux pense que Walt » signifie « chien », puisque ce mot fonctionne avec le reste du prompt.

Les chercheurs précisent que ces découvertes ne doivent pas servir aux utilisateurs pour contourner les mesures de sécurité, mais à bien à mettre en garde les créateurs de ces IA contre la faille dans leur système. Peu de chance, donc, que SneakyPrompt soit diffusé auprès du grand public, ce qui n’est probablement pas une mauvaise chose.

Source : Université de Cornell

Réagissez à cet article !

Demandez nos derniers articles !

Le Pixel 8 souffre toujours de sérieux bugs de WiFi et Google refuse de les corriger

Plusieurs mois après l’apparition des premiers témoignages, il semblerait que le souci du Pixel 8 Pro avec les connexions WiFi et Bluetooth ne soit toujours pas résolu. À vrai dire,…

-30 % sur la Garmin Forerunner 255 : la montre sport de référence est à un prix imbattable

Montre GPS multisport parmi les meilleures de sa catégorie, la Garmin Forerunner 255 est à prix cassé. Grâce aux promos Choice Day d’AliExpress, elle profite d’une réduction de plus de…

Le Google Play Store va rendre les avis bien plus utiles avec cette nouveauté

Google envisage l’intégration d’une option aussi simple qu’efficace dans le Play Store. Elle donnerait une raison de parcourir les avis sans pour autant perdre son temps à tous les lire….

Déjà 345 € de réduction sur le Xiaomi 17 : une offre difficile à ignorer

Le récent Xiaomi 17 voit son prix chuter de près de 350 € grâce à une offre à durée limitée. La version 512 Go du smartphone haut de gamme est…

LinkedIn espionnerait discrètement votre navigateur Chrome, des milliers d’extensions concernées

LinkedIn est accusé d’injecter du JavaScript afin d’analyser les navigateurs web de ses visiteurs à leur insu. Le site, propriété de Microsoft, collecterait des données, telles que les extensions Chrome…

Choice Day AliExpress : les offres à ne pas rater en avril 2026

Comme chaque mois, AliExpress débute avril avec son opération Choice Day qui fait chuter les prix sur toute la boutique. C’est le moment idéal pour réaliser d’importantes économies sur vos…

PlayStation : Sony confirme à demi-mot que ses jeux ne sortiront plus sur PC

Alors que l’on attend toujours une communication officielle de la part de Sony concernant l’avenir de ses portages PC, la firme accumule les indices confirmant l’annonce de Bloomberg d’il y…

L’IA permet de lancer Windows 11 sur des PC non compatibles

Il fallait s’y attendre, un Internaute a réussi à passer outre la configuration minimale obligatoire pour installer Windows 11 à l’aide de l’IA Claude. Le système d’exploitation de lance alors…

OneDrive : attention, vous ne pourrez bientôt plus récupérer vos fichiers supprimés depuis la Corbeille

Microsoft vient d’annoncer aux utilisateurs de OneDrive un changement de taille dans la gestion des fichiers supprimés. En effet, lorsque ceux-ci sont stockés localement et supprimés depuis l’appareil, il ne…

Ce Lego PSP-1000 imaginé par un fan pourrait devenir un kit officiel

Un internaute fan de la console portable de Sony, la PSP, a proposé d’en faire un kit Lego. Son projet rencontre beaucoup de succès et pourrait aboutir à une mise…