L’IA pourrait bientôt “penser” d’une manière qu’on ne comprend pas

Aujourd'hui, on peut surveiller le cheminement de pensée des modèles d'IA pour détecter les erreurs et les dangers. Mais prochainement, ils pourraient devenir assez intelligents pour dissimuler la manière dont ils arrivent à un résultat, une action ou un raisonnement.

Robot IA contre humain aux échecs
Crédit : 123RF

À mesure qu'elle devient plus performante, l'IA se complexifie, rendant de plus en plus difficile la possibilité de comprendre comment elle en arrive à un résultat ou à une “réflexion”. C'est d'autant plus vrai qu'on sait que l'IA peut apprendre d'elle-même, ce qui signifie qu'elle peut s'adapter au-delà des bases de données ou des paramètres qui lui sont initialement soumis.

Une récente étude sur la sécurité de l'IA vient d'être publiée. Elle regroupe des dizaines de chercheurs spécialisés, appartenant à des entreprises à la pointe de l'IA : Google, Amazon, OpenAI, Meta, Anthropic… Cette étude porte plus exactement sur le contrôle des chaînes de pensée de l'IA. Pouvoir surveiller et analyser le “cheminement de pensée” exact des IA limiterait les risques que les agents d'IA avancés, dont le fonctionnement est opaque, fassent des erreurs d'interprétation, ou décident d'agir contre les règles qui leur ont été imposées. Mais ce n'est pas si simple…

Les modèles d'IA pourront délibérément occulter des informations sur leur chaîne de pensée

La surveillance des chaînes de pensée comporte en effet des limites. Le rapport souligne qu'elle peut permettre de détecter certains comportements anormaux, mais qu'elle ne fournit pas à elle seule des preuves solides de sécurité. Ce n'est pas parce qu'on met en place un système de contrôle des chaînes de pensée, que l'IA ne peut pas dysfonctionner en dehors de ce type de surveillance. “Il faut veiller à ne pas créer un faux sentiment de sécurité basé sur une telle surveillance”, insistent les chercheurs.

En outre, la surveillance des tâches nécessitant un raisonnement avancé peut ne pas détecter tous les dangers pertinents. “La surveillance des chaînes de pensée pourrait cesser de fonctionner dans les modèles plus avancés, conscients de la situation. Les futurs modèles pourraient être capables d'éviter la détection en neutralisant leur propension à penser à voix haute et, lorsque le raisonnement est requis, en l'obscurcissant délibérément”, estiment les auteurs de l'étude.

D'après eux, il faut réfléchir dès maintenant à des moyens de conserver une bonne visibilité des chaînes de pensée des modèles d'IA dans le futur pour que ceux-ci, bien plus puissants que les modèles actuels, puissent être exploités dans une relative sécurité.


Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Réagissez à cet article !

Demandez nos derniers articles !

Ne demandez pas à ChatGPT de générer vos mots de passe

Utiliser un chatbot pour créer vos mots de passe, c’est pratique non ? Peut-être, mais d’après ces experts, vous devriez arrêter de le faire. Il s’avère que l’IA n’est pas…

Galaxy S26, S26+ et S26 Ultra moins chers : où les acheter au meilleur prix ?

Les Galaxy S26, S26+ et S26 Ultra sont disponibles à la précommande. Samsung et ses partenaires proposent une offre de lancement qui permet de les acheter moins cher, pendant quelques…

Vous commandez sur Shein, Aliexpress ou Temu ? Attention : vous allez bientôt payer plus cher

Une taxe souhaitée par le gouvernement va entrer en vigueur dans peu de temps. Elle impacte vos commandes sur Temu, Shein ou Aliexpress et peut rapidement faire grimper la facture…

Les Galaxy S26 sont capables de trouver le moment exact de la vidéo que vous cherchez grâce à l’IA

Il n’est pas toujours facile de savoir dans quelle vidéo se trouve ce moment hilarant que vous souhaitez montrer à un proche et les Galaxy S26 comptent bien régler ce…

Gemini devient encore plus intelligent avec ces nouvelles fonctionnalités

En parallèle de la sortie des Galaxy S26, Google annonce les nouveautés de son IA Gemini. Elle devient capable de faire encore plus de choses à votre place. De quoi…

IA

Adobe Firefly vous fait gagner un temps fou sur le montage vidéo grâce à sa nouvelle fonction IA

Le montage vidéo prend souvent des heures, même pour des projets simples. Adobe veut accélérer cette étape grâce à l’intelligence artificielle. Une nouvelle fonction de Firefly promet de créer un…

IA

Outlook : Microsoft a trouvé un nouveau moyen hyper intrusif de vous forcer à utiliser son IA Copilot

Microsoft veut absolument que vous aimiez son IA Copilot et compte bien pour cela vous forcer à l’utiliser contre votre gré. D’ici quelques mois à peine, une nouvelle fonctionnalité d’Outlook…

Les patrons de Disney ont vu Avengers Doomsday, voici ce qu’ils en ont pensé

La sortie d’Avengers Doomsday approche. En attendant, des personnes haut placées chez Disney ont pu voir à quoi ressemble le film. Leur avis est-il rassurant ou inquiétant ? 7 ans…

ChatGPT va proposer une offre à 100 dollars par mois, pour ceux qui sont limités par la version Plus

Du code déniché dans la version web de ChatGPT laisse entendre qu’une nouvelle formule d’abonnement est sur le point d’arriver. Baptisée “Pro Lite”, celle-ci devrait se positionner entre les formules…

IA

Des publicités Google piégées échappent aux contrôles grâce à cet outil pirate

Les publicités en ligne sont devenues un terrain de jeu pour les cybercriminels. Certains outils permettent désormais de contourner les systèmes de vérification des grandes plateformes. Une nouvelle menace vise…