IA : pourquoi Heretic représente l’un des plus grands dangers numériques de tous les temps
Sur le web, un nouveau projet open source disponible sur GitHub est en train de prendre de l’ampleur et cela n’a rien d’une bonne nouvelle. Cet outil lobotomisateur d’IA automatique incarne une prouesse technique, mais surtout une véritable menace : à la fois pour les autres, mais également pour celui qui s’en servirait. Voici pourquoi Heretic, puisque c’est son nom, représente probablement un danger d’une rare ampleur.

Nous ne serions probablement pas très loin de la vérité en déclarant que, aujourd’hui, tout le monde ou presque a déjà entendu parler de l’intelligence artificielle et qu’une majeure partie de la population s’est déjà adressée, au moins une fois, à un chatbot quel qu’il soit. L’IA, on l’a déjà évoqué à de nombreuses reprises dans nos colonnes, est une technologie à double tranchant. Et pour éviter qu’il n’y ait encore plus de dérives qu’il n’y en a déjà, les grands modèles de langage (LLM) possèdent des garde-fous.
Pour tester leurs limites, les fans de Breaking Bad ont peut-être déjà tenté de soutirer à ChatGPT la « recette » de la métamphétamine, là où ceux d’Oppenheimer ou de Mission Impossible : Fallout se seraient enquis auprès de Gemini du mode opératoire pour fabriquer une bombe. Tous se seront heurtés au même mur : le refus du chatbot d’accéder à leur requête. C’était sans compter sur un nouvel « outil qui supprime la censure » : Heretic. Mais, vous allez le voir, il ne s’agit pas d’une simple histoire de contournement : le danger est bien réel.
Une véritable prouesse technique qui décensure l’IA sans (trop) réduire ses performances, mais…
Annihiler les barrières de sécurité d’un LLM, plusieurs développeurs s’y sont déjà frottés. Pour ce faire, ils procédaient en général à une sorte de « lobotomie » manuelle du modèle en lui retirant les morceaux de code qu’ils estimaient être ceux contenant les garde-fous. Mais ce faisant, les chatbots finissaient par se retrouver comme le personnage de Jack Nicholson à la fin de Vol au-dessus d’un nid de coucou.
C’est en cela que ce nouvel outil est « révolutionnaire » : il fonctionne « de manière entièrement automatique » et ne vient ablater que les parties nécessaires à faire tomber les « alignements de sécurité » des modèles de langage. Ainsi, l’altération des performances de l’IA est bien moindre : « Il en résulte un modèle décensuré qui conserve au maximum l'intelligence du modèle original. »
Testée sur Gemma de Google, la divergence KL (simplifions en traduisant par les capacités du modèle) obtenue avec cet outil automatique est bien plus faible que lors d’une « lobotomie » manuelle – plus le résultat est proche de 0, « mieux c’est » puisqu’on se rapproche du score du modèle original qui est de 0 par définition.

Heretic incarne peut-être l’une des plus grandes menaces numériques
S’il s’agit d’une prouesse technique, c’est surtout une véritable menace, et ce à plusieurs égards, surtout à l’ère de l’IA « agentique » – ce vers quoi tendent tous les grands pontes de la tech, comme Microsoft ou Google. Vous avez peut-être déjà entendu parler de Moltbook, ce projet d’agents IA open source ? Initialement baptisé Clawdbot, il vient encore de changer de nom pour désormais s’appeler OpenClaw : « l’IA qui passe réellement à l’action » en tournant sur vos propres appareils.
Ne faites surtout pas ce qui va suivre s’il vous plaît, contentez-vous simplement d’imaginer. Imaginez, donc, que vous pluggez (ou branchez pour les puristes) Heretic sur ce projet open source. Les conséquences pourraient être désastreuses, mais pas seulement pour les autres : pour vous aussi.
Commençons par évoquer « les autres ». En « lobotomisant » OpenClaw pour faire sauter ses garde-fous, vous pourriez demander à votre agent IA qui ne dort jamais d’utiliser tous les moyens à sa disposition pour tenter de pirater chaque site sur lequel il passe. Mais Heretic pourrait également transformer un modèle de langage en usine à e-mails de phishing en automatisant leur rédaction ainsi que leur envoi. Y a-t-il besoin de développer davantage sur les risques réels ?
Et, à l’inverse, recourir à Heretic pourrait se retourner contre l’utilisateur lui-même. L’ampleur des attaques par injection de prompts se fait de plus en plus importante : les pirates peuvent désormais cacher dans des images ou dans des e-mails des instructions qu’un agent pourrait exécuter – alors que, en temps normal, il en bloquerait au moins certaines s’il détecte qu’on lui demande de se retourner contre son hôte.

Tout espoir n’est pas perdu
Ce qui rend Heretic d’autant plus dangereux, c’est que ce programme est « facile » d’usage – à condition de savoir exécuter un programme en ligne de commande. Il est, en effet, précisé sur le dépôt officiel GitHub : « L'utilisation de Heretic ne requiert aucune connaissance du fonctionnement interne des transformateurs. » Et l’outil gagne actuellement en popularité : son dépôt officiel GitHub recense 8 300 étoiles et comptabilise déjà 836 « fourchettes » – c’est-à-dire des copies du projet.
Toutefois, un élément est rassurant dans ce contexte : Heretic ne fonctionne (pour le moment ?) que sur des petits modèles open source – ChatGPT et Gemini qui figurent parmi les chatbots les plus utilisés ne sont pas concernés par ce programme. Mais il existe des modèles open source capables de faire trembler ces grands acteurs de l’IA, notamment DeepSeek… Ajoutons à cela que cette menace qui plane pourrait renforcer l'oligopole des géants : face à de tels risques, ils pourraient rechigner encore davantage à publier les codes de leurs services.
Face à ce Dr Frankenstein de l’IA, la prudence n’est plus une option. Alors voici les bonnes pratiques à adopter constamment. Le but ici n’est pas d’instiller la peur, mais de transformer la vigilance en automatisme afin de continuer à vivre sereinement : mettez à jour vos appareils et applications dès que possible, restez intraitable sur les demandes d’accès aux services d’accessibilité, protégez vos comptes avec des mots de passe forts uniques et privilégiez la double authentification. Enfin, gardez à l’esprit de ne jamais ouvrir des liens suspects ou non sollicités.