Comment empêcher l’IA de répondre à des demandes interdites ? Ces scientifiques pensent avoir trouvé la solution

Par Thomas Povéda Le 16/09/2025 0 com

Une équipe de chercheurs a trouvé un moyen d'empêcher le détournement de l'IA pour qu'elle répondent à des demandes normalement illégales. Les premiers résultats sont encourageants.

L'intelligence artificielle n'est pas infaillible. Techniquement, chaque modèle est conçu de sorte qu'il ne puisse pas répondre à des requêtes définies comme interdites. C'est pour ça que ChatGPT, par exemple, refuse de vous aider à développer un malware ou trouver des sites pour télécharger un film illégalement. Dans les faits, on sait que détourner une IA à des fins parfois criminelles n'est pas si compliqué que ça.

Quand cela arrive, les développeurs revoient leur copie et déploient rapidement un correctif. Mais pour une équipe de l'Université de Californie à Riverside, c'est prendre le problème par le mauvais bout. Elle se base sur l'exemple des IA open source, c'est-à-dire accessibles et modifiables par n'importe qui. Elles peuvent ainsi être amputées de plusieurs fonctionnalités, dont celles qui les empêchent de répondre à tout et n'importe quoi. Que faire dans ce genre de cas ? La solution envisagée est au final assez simple.

Cette méthode permet de rendre l'utilisation des IA plus sûres

Les chercheurs ont réentraîné le cœur d'une IA pour que cette dernière “n’oublie pas comment se comporter en toute sécurité” même une fois dépouillée de ses systèmes de sécurité, explique Saketh Bachu, co-auteur principal de l’étude. En guise de test, l'équipe a utilisé le modèle open source LLaVA 1.5. D'abord, elle a confirmé des comportements problématiques. En combinant une image banale et une question normalement interdite, l'IA a donné la recette pour fabriquer une bombe par exemple.

Après un nouvel entraînement de sa structure principale, le modèle a cette fois-ci refusé de répondre à des requêtes dangereuses, bien que réduit à sa plus simple expression. “Il ne s'agit pas d'ajouter des filtres ou des garde-fous externes. Nous modifions la compréhension interne du modèle, afin qu'il fonctionne correctement par défaut, même après modification“, résume Bachu. L'étudiant diplômé de l'Université de Californie à Riverside est conscient qu'il s'agit seulement d'un premier pas, mais il reste encourageant.

Abonnez-vous gratuitement à la newsletter

Réagissez à cet article !

Voir tous les commentaires

Demandez nos derniers articles !

Samsung Galaxy Watch Ultra : ces 3 promotions cumulables cassent le prix de l’excellente montre connectée !
À l’approche de la nouvelle année, Samsung propose trois offres promotionnelles cumulables sur la meilleure de ses montres connectées, la Galaxy Watch Ultra de 2025. Alors si vous voulez commencer l’année 2026 avec un beau cadeau au poignet, c’est le…

Objets connectés 26/12/2025
Le airfryer Ninja Double Stack XL est à moitié prix dans un pack complet, il n’a jamais été aussi peu cher !
À mi-chemin ente four électrique et friteuse à huile, les aifryers ont révolutionné notre manière de cuisiner. Vous cherchez un modèle compact mais suffisamment grand pour cuisiner pour toute la famille ? Le Ninja Double Stack XL est actuellement à…

Bons plans 26/12/2025
L’excellent Sony WH-1000XM6 est de retour à prix cassé avec cette offre flash, vite !
Le récent casque haut de gamme de Sony vous fait de l’oeil ? Ce bon plan est fait pour vous ! Habituellement en vente à 449,99 €, le WH-1000XM6 est actuellement en promotion sur la Fnac. Et avec une remise supplémentaire…

Bons plans 24/12/2025
Windows Phone vous manque ? Des fans lancent un appel fou pour ressusciter le système de Microsoft
Six ans après avoir été complètement abandonné par Microsoft, Windows Phone pourrait-il revenir sur le devant de la scène ? C’est le pari un peu insensé que se sont lancé les fans du système pour mobiles de Microsoft. Une poignée…

Téléphonie 24/12/2025
Xiaomi 17 Ultra : le partenariat avec Leica franchit un cap majeur pour réinventer les standards de la photo mobile
C’est officiel : Xiaomi a dévoilé la date de lancement de son prochain fleuron, le Xiaomi 17 Ultra. Alors que la gamme à laquelle il appartient marque déjà une rupture importante par rapport aux générations précédentes, ce modèle Ultra s’annonce révolutionnaire…

Xiaomi 24/12/2025
Le prix du forfait B&YOU Pure Fibre va augmenter, voici son nouveau tarif
Bouygues Telecom annonce aux titulaires du forfait B&YOU Pure Fibre que le montant de leur abonnement va augmenter. Et sans aucune compensation. La hausse est prévue le 5 janvier 2026. Elle intervient un peu plus d’un an après le lancement…

Bouygues Telecom 24/12/2025
Pourquoi certains abonnés Free Mobile ne peuvent-ils plus appeler les numéros d’urgence ?
Il y a un mois, Free annonçait l’arrêt progressif de son réseau 3G. Dès lors, les premiers problèmes ont émergé, notamment l’impossibilité d’appeler les services secours pour certains abonnés. Comment est-ce possible ? Quelles sont les solutions ? Voici les…

Free 24/12/2025
iPhone Fold : vous avez du mal à vous projeter ? Voici l’aperçu le plus abouti du futur smartphone pliant d’Apple
Attendu depuis des années, le tout premier iPhone pliant devrait sortir en 2026. Suscitant la curiosité, il fait l’objet de nombreuses indiscrétions. Parmi les récentes fuites : ses dimensions peu conventionnelles. Pour vous aider à vous projeter, un leaker vient de…

iPhone 24/12/2025
Blocage des malwares et traqueurs : comment Proton VPN rend votre navigation plus sûre
Les meilleurs VPN ne se limitent plus à changer votre adresse IP et à protéger votre confidentialité en ligne. En plus de vous offrir un solide anonymat, Proton VPN inclut une protection contre les sites malveillants, y compris les sites…

Sécurité 24/12/2025
Galaxy Z TriFold : un test de durabilité extrême révèle s’il supporte vraiment les 200 000 pliages promis par Samsung
Samsung vient de lancer son smartphone pliant le plus ambitieux : le Galaxy Z TriFold. La marque annonce une résistance jusqu’à 200 000 pliages et dépliages. Est-ce simplement une promesse marketing ? Le smartphone a été poussé dans ses retranchements…

Samsung 24/12/2025

Newsletter