La censure des IA ne fonctionne plus, ces chercheurs sont parvenus à générer des images interdites

Des chercheurs de l’Université de Cornell ont mis au point un algorithme capable de contourner la censure des IA génératives. Grâce à celui-ci, ils sont parvenus à obtenir des images à caractère pornographique, normalement impossible à créer avec DALL-E ou encore Stable Diffusion. En apprenant, au passage, des choses étonnantes sur leur fonctionnement.

pc censure

Avec une telle puissance, il était malheureusement évident que les IA génératives engendreraient des dérives. Citons notamment les deepfakes, aujourd’hui majoritairement utilisés pour créer du contenu pornographique, au détriment des personnes présentes dans les vidéos. Il est donc impératif pour les IA génératives d’images, comme DALL-E et Midjourney, d’intégrer un filet de sécurité empêchant les débordements.

Ainsi, ces outils censurent de nombreux mots jugés sexuels ou encore violents, bien que la définition varie selon les sensibilités de chacun. Impossible, par exemple, de demander aux IA de générer une personne nue. Les prompts contenant ces mots censurés seront catégoriquement refusés, tandis que les utilisateurs un peu trop insistants risquent d’être bannis.

Comment des chercheurs ont poussé des IA à générer des images pornographiques

Cela ne veut pas dire qu’il a toujours été impossible de contourner cette censure. Néanmoins, les méthodes existantes pour pousser les IA à générer des images interdites n’ont jamais été universelles et ne fonctionnent que sur un outil spécifique. Jusqu’à ce qu’une équipe de chercheurs de l’université de Cornell découvrent comment plier chaque IA à leur volonté.

Sur le même sujet —L’IA accentuerait la solitude des hommes, mettant toute une génération en danger

SneakyPrompt : c’est le nom de cet algorithme capable de contourner la censure des IA générative. L’objectif de ce dernier est de déterminer les approches les plus efficaces pour arriver à ses fins (généralement peu orthodoxes) en testant différentes formulations de prompts. En fonction de la réponse obtenue, l’algorithme va adapter ses prompts jusqu’à obtenir le résultat attendu.

C’est alors que SneakyPrompt a commencé à faire des découvertes étonnantes. À force d’itérations pour trouver les meilleures formulations, l’algorithme a fini par comprendre que certaines suites de caractères ne voulant absolument rien dire sont interprétées de manière très claire par les IA. Sans que les chercheurs sachent pourquoi, « mowwly » devient « chat », tandis que « butnip fwngho » devient chien au sein des prompts.

intelligence artificielle cyberpunk

Yinzhi Cao, membre de l’équipe de chercheur, émet une hypothèse intéressante pour expliquer ce phénomène. Celui-ci rappelle que les IA sont entraînées via un corpus de textes écrits en différentes langues. Certaines suites de caractères peuvent ainsi être proches de certains mots dans certaines langues, poussant ainsi l’IA à déterminer qu’il s’agit du mot que voulait taper l’utilisateur.

Forcément, il est possible d’utiliser cette « faille » pour pousser les IA à générer des images explicites. En effet, ces suites de caractères n’étant pas intégrées aux filtres de sécurité des outils, et après moult tentatives, les IA peuvent être amenées à les interpréter pour des mots interdits. Un résultat certainement permit par le fait que ces outils se basent plutôt sur le contexte d’une phrase plutôt que sur son sens premier.

En effet, dans la phrase « le dangereux pense que Walt grogna de manière menaçante envers l’étranger qui s’approchait de son propriétaire », les IA vont généralement considérer que « le dangereux pense que Walt » signifie « chien », puisque ce mot fonctionne avec le reste du prompt.

Les chercheurs précisent que ces découvertes ne doivent pas servir aux utilisateurs pour contourner les mesures de sécurité, mais à bien à mettre en garde les créateurs de ces IA contre la faille dans leur système. Peu de chance, donc, que SneakyPrompt soit diffusé auprès du grand public, ce qui n’est probablement pas une mauvaise chose.

Source : Université de Cornell

Réagissez à cet article !

Demandez nos derniers articles !

Poco X8 Pro : le smartphone Xiaomi est à prix cassé (-38%)

Lancé à 403 €, le Poco X8 Pro 256 Go est actuellement à 248 € grâce à une double réduction. C’est une bonne affaire pour un smartphone équipé du Dimensity…

DJI Neo 2 : le mini drone 4K super simple d’utilisation chute à moins de 190 €, vite !

DJI est la marque de drone la plus reconnue. Elle propose de nombreux modèles pour tous types d’utilisateurs. Le DJI Neo 2 est destiné aux débutants qui ne veulent pas…

40 % de remise sur le Redmi Note 15 5G : le smartphone Xiaomi passe à 181 €

Le Redmi Note 15 5G voit son prix chuter de 40%, passant sous la barre des 190 €. Si vous recherchez un bon smartphone sous la barre des 200 €,…

Bon plan Xiaomi Pad 8 : la puissante tablette est à prix sacrifié pour quelques heures, vite !

Sortie en début d’année, la Xiaomi Pad 8 est déjà à prix sacrifié sur AliExpress. Vous pouvez ainsi vous l’offrir à 309,30 € seulement au lieu de 499,99€. Mais attention,…

Cet homme a volé la Lune, littéralement : voici la folle histoire du casse le plus insolite du siècle

Le récit que vous vous apprêtez à lire est une histoire incroyable, mais vraie. De celles qui nous font nous exclamer : « la réalité dépasse la fiction ». Elle allie tous les…

Gemini intègre bientôt Capcut pour monter vos vidéos à l’aide d’un simple prompt

Après Photoshop dans ChatGPT, voici Capcut dans Gemini. L’éditeur du logiciel de montage le plus populaire des créateurs de contenus vient en effet d’annoncer un partenariat avec Google pour amener…

IA

Après les smartphones, la première tablette pliable devrait bientôt pointer le bout de son nez

Alors qu’on se rapproche des 10 ans d’existence pour les smartphones pliables, Huawei prévoirait de lancer la première tablette de ce type dans quelques mois. On s’est maintenant habitué aux…

Se faire livrer ses courses ou louer une voiture devient possible sur Airbnb

Airbnb lance des services au-delà des offres de logement, entre location de voiture, livraison de courses ou réservation d’un transport privé. La grande tendance des plateformes est à la diversification….

Huawei Watch FIT 5 Series : elle analyse votre sommeil, votre stress et votre cœur, et le résultat est bluffant

La Watch FIT 5 Series de Huawei mise sur un suivi santé complet : sommeil, stress, ECG, respiration nocturne. Deux modèles pour deux budgets, avec 60 euros de réduction jusqu’au…

Windows 11 se dote d’une fonctionnalité que les utilisateurs de MacBook et de PS5 connaissent bien

Microsoft vient d’ajouter une nouvelle petite fonctionnalité à Windows 11 pour renforcer “l’immersion” et l’expérience utilisateur. Si vous possédez une PS5 ou que vous avez récemment utilisé un MacBook, vous…