L’IA pourrait bientôt “penser” d’une manière qu’on ne comprend pas

Aujourd'hui, on peut surveiller le cheminement de pensée des modèles d'IA pour détecter les erreurs et les dangers. Mais prochainement, ils pourraient devenir assez intelligents pour dissimuler la manière dont ils arrivent à un résultat, une action ou un raisonnement.

Robot IA contre humain aux échecs — Crédit : 123RF

À mesure qu'elle devient plus performante, l'IA se complexifie, rendant de plus en plus difficile la possibilité de comprendre comment elle en arrive à un résultat ou à une “réflexion”. C'est d'autant plus vrai qu'on sait que l'IA peut apprendre d'elle-même, ce qui signifie qu'elle peut s'adapter au-delà des bases de données ou des paramètres qui lui sont initialement soumis.

Une récente étude sur la sécurité de l'IA vient d'être publiée. Elle regroupe des dizaines de chercheurs spécialisés, appartenant à des entreprises à la pointe de l'IA : Google, Amazon, OpenAI, Meta, Anthropic… Cette étude porte plus exactement sur le contrôle des chaînes de pensée de l'IA. Pouvoir surveiller et analyser le “cheminement de pensée” exact des IA limiterait les risques que les agents d'IA avancés, dont le fonctionnement est opaque, fassent des erreurs d'interprétation, ou décident d'agir contre les règles qui leur ont été imposées. Mais ce n'est pas si simple…

Les modèles d'IA pourront délibérément occulter des informations sur leur chaîne de pensée

La surveillance des chaînes de pensée comporte en effet des limites. Le rapport souligne qu'elle peut permettre de détecter certains comportements anormaux, mais qu'elle ne fournit pas à elle seule des preuves solides de sécurité. Ce n'est pas parce qu'on met en place un système de contrôle des chaînes de pensée, que l'IA ne peut pas dysfonctionner en dehors de ce type de surveillance. “Il faut veiller à ne pas créer un faux sentiment de sécurité basé sur une telle surveillance”, insistent les chercheurs.

En outre, la surveillance des tâches nécessitant un raisonnement avancé peut ne pas détecter tous les dangers pertinents. “La surveillance des chaînes de pensée pourrait cesser de fonctionner dans les modèles plus avancés, conscients de la situation. Les futurs modèles pourraient être capables d'éviter la détection en neutralisant leur propension à penser à voix haute et, lorsque le raisonnement est requis, en l'obscurcissant délibérément”, estiment les auteurs de l'étude.

D'après eux, il faut réfléchir dès maintenant à des moyens de conserver une bonne visibilité des chaînes de pensée des modèles d'IA dans le futur pour que ceux-ci, bien plus puissants que les modèles actuels, puissent être exploités dans une relative sécurité.

Gardez une longueur d'avance sur la tech

Décryptages, tests, nouveautés : recevez l'essentiel de Phonandroid

L’IA pourrait bientôt “penser” d’une manière qu’on ne comprend pas

Les modèles d'IA pourront délibérément occulter des informations sur leur chaîne de pensée

La rédaction vous conseille aussi...

Réagissez à cet article !

Demandez nos derniers articles !

Soldes Samsung : le nouveau téléviseur Neo QLED 4K QN70H de 55 pouces passe sous la barre des 680 €

Windows 11 : supprimer l’arrière-plan d’une photo, c’est simple et rapide grâce à cette application gratuite

Grâce à One UI 9, cette fonction bien pratique du Galaxy S26 arrive sur d’autres smartphones Samsung, dont le Galaxy S25

Attention au stockage de votre compte Google avec cette nouvelle règle de sauvegarde des données

Les fans de Tesla réclamaient un vélo électrique, voici la réponse surprenante de la marque

Cette marque de smartphones a le vent en poupe, elle progresse plus vite que Samsung et Apple

Honor Pad X8a : la tablette de 11 pouces perd 60 % de son prix et passe sous les 80 €

Un PC sur six carbure toujours à Windows 10, les hackers se frottent déjà les mains

Bon plan POCO X8 Pro : son prix chute de près de 150 € seulement quatre mois après sa sortie

Des astronomes détectent pour la première fois une atmosphère autour d’une planète rocheuse habitable