La censure des IA ne fonctionne plus, ces chercheurs sont parvenus à générer des images interdites

Des chercheurs de l’Université de Cornell ont mis au point un algorithme capable de contourner la censure des IA génératives. Grâce à celui-ci, ils sont parvenus à obtenir des images à caractère pornographique, normalement impossible à créer avec DALL-E ou encore Stable Diffusion. En apprenant, au passage, des choses étonnantes sur leur fonctionnement.

pc censure

Avec une telle puissance, il était malheureusement évident que les IA génératives engendreraient des dérives. Citons notamment les deepfakes, aujourd’hui majoritairement utilisés pour créer du contenu pornographique, au détriment des personnes présentes dans les vidéos. Il est donc impératif pour les IA génératives d’images, comme DALL-E et Midjourney, d’intégrer un filet de sécurité empêchant les débordements.

Ainsi, ces outils censurent de nombreux mots jugés sexuels ou encore violents, bien que la définition varie selon les sensibilités de chacun. Impossible, par exemple, de demander aux IA de générer une personne nue. Les prompts contenant ces mots censurés seront catégoriquement refusés, tandis que les utilisateurs un peu trop insistants risquent d’être bannis.

Comment des chercheurs ont poussé des IA à générer des images pornographiques

Cela ne veut pas dire qu’il a toujours été impossible de contourner cette censure. Néanmoins, les méthodes existantes pour pousser les IA à générer des images interdites n’ont jamais été universelles et ne fonctionnent que sur un outil spécifique. Jusqu’à ce qu’une équipe de chercheurs de l’université de Cornell découvrent comment plier chaque IA à leur volonté.

Sur le même sujet —L’IA accentuerait la solitude des hommes, mettant toute une génération en danger

SneakyPrompt : c’est le nom de cet algorithme capable de contourner la censure des IA générative. L’objectif de ce dernier est de déterminer les approches les plus efficaces pour arriver à ses fins (généralement peu orthodoxes) en testant différentes formulations de prompts. En fonction de la réponse obtenue, l’algorithme va adapter ses prompts jusqu’à obtenir le résultat attendu.

C’est alors que SneakyPrompt a commencé à faire des découvertes étonnantes. À force d’itérations pour trouver les meilleures formulations, l’algorithme a fini par comprendre que certaines suites de caractères ne voulant absolument rien dire sont interprétées de manière très claire par les IA. Sans que les chercheurs sachent pourquoi, « mowwly » devient « chat », tandis que « butnip fwngho » devient chien au sein des prompts.

intelligence artificielle cyberpunk

Yinzhi Cao, membre de l’équipe de chercheur, émet une hypothèse intéressante pour expliquer ce phénomène. Celui-ci rappelle que les IA sont entraînées via un corpus de textes écrits en différentes langues. Certaines suites de caractères peuvent ainsi être proches de certains mots dans certaines langues, poussant ainsi l’IA à déterminer qu’il s’agit du mot que voulait taper l’utilisateur.

Forcément, il est possible d’utiliser cette « faille » pour pousser les IA à générer des images explicites. En effet, ces suites de caractères n’étant pas intégrées aux filtres de sécurité des outils, et après moult tentatives, les IA peuvent être amenées à les interpréter pour des mots interdits. Un résultat certainement permit par le fait que ces outils se basent plutôt sur le contexte d’une phrase plutôt que sur son sens premier.

En effet, dans la phrase « le dangereux pense que Walt grogna de manière menaçante envers l’étranger qui s’approchait de son propriétaire », les IA vont généralement considérer que « le dangereux pense que Walt » signifie « chien », puisque ce mot fonctionne avec le reste du prompt.

Les chercheurs précisent que ces découvertes ne doivent pas servir aux utilisateurs pour contourner les mesures de sécurité, mais à bien à mettre en garde les créateurs de ces IA contre la faille dans leur système. Peu de chance, donc, que SneakyPrompt soit diffusé auprès du grand public, ce qui n’est probablement pas une mauvaise chose.

Source : Université de Cornell

Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Réagissez à cet article !

Demandez nos derniers articles !

NordVPN lance une protection des appels pour bloquer les arnaques et le démarchage téléphonique

La « Protection des appels », la nouvelle fonctionnalité de NordVPN, vise à lutter contre les arnaques et les appels téléphoniques abusifs. Elle est capable d’alerter les utilisateurs avant même…

Un OS entièrement conçu par l’IA, une mise à jour urgente pour votre Samsung, c’est le récap’ de la semaine

Un internaute laisse l’IA créer son propre système d’exploitation, le Galaxy S26 Ultra livré en avance, le patch de sécurité de mars débarque chez Samsung, c’est le récap’ de la…

Xiaomi S20 : le robot aspirateur est à seulement 86 €, l’offre se termine ce soir !

Xiaomi est le spécialiste des appareils high-tech avec un excellent rapport qualité-prix. Mais à l’occasion du Choice Day AliExpress, le robot aspirateur Xiaomi S20 est à un prix hallucinant. Pour…

Honor Magic V2 à prix sacrifié : dernières heures pour vous offrir cet incroyable smartphone pliable, vite !

Sorti pour presque 2000 euros, le smartphone pliable Honor Magic V2 est maintenant disponible pour seulement 573,53 euros. C’est un excellent prix pour un smartphone de cette qualité qui peut…

Garmin Forerunner 255 : la montre GPS multisport passe sous les 160 €

La Garmin Forerunner 255, toujours aussi populaire, voit son prix chuter au plus bas. Pendant quelques heures encore, AliExpress la propose sous la barre des 160 €. Découvrir l’offre sur…

Le PS Store de la PS5 affiche des prix différents pour le même jeu si vous êtes connecté à votre compte PlayStation ou non

Un mécanisme de tarification dynamique sur le PS Store modifie les prix des jeux selon certains critères. L’un d’entre eux semble être la connexion ou non à un compte PlayStation…

Le câble inclus avec le Galaxy S26 Ultra n’est pas compatible avec la charge rapide du smartphone

Pour recharger le Galaxy S26 Ultra à pleine vitesse, il ne faut pas utiliser le câble inclus dans la boîte du smartphone. Tout cela n’est pas très intuitif, Samsung.  Certains…

Orange a trouvé la solution contre le spam : l’opérateur va afficher le nom de celui qui appelle

Orange dévoile sa technologie Branded Calling, qui affiche le nom de l’entreprise appelante sur l’écran du destinataire. L’utilisateur pourra ainsi identifier s’il s’agit d’un spam ou s’il souhaite répondre à…

Une sortie dès 2027 pour la PS6 ? La retarder coûterait plus cher à Sony que de payer la RAM au prix fort

La sortie de la PS6 ne serait pas retardée à 2028 ou 2029, comme le clament certaines sources. Malgré la crise de la RAM et du stockage que l’on connaît,…

Ce mail vous paraît louche ? ChatGPT peut vous dire si c’est une arnaque, on vous explique tout

En plus de répondre à toutes vos questions et de vous aider dans de nombreuses situations, savez-vous que ChatGPT peut également devenir un rempart contre les arnaques en ligne ?…