L’IA pourrait bientôt “penser” d’une manière qu’on ne comprend pas

Aujourd'hui, on peut surveiller le cheminement de pensée des modèles d'IA pour détecter les erreurs et les dangers. Mais prochainement, ils pourraient devenir assez intelligents pour dissimuler la manière dont ils arrivent à un résultat, une action ou un raisonnement.

Robot IA contre humain aux échecs
Crédit : 123RF

À mesure qu'elle devient plus performante, l'IA se complexifie, rendant de plus en plus difficile la possibilité de comprendre comment elle en arrive à un résultat ou à une “réflexion”. C'est d'autant plus vrai qu'on sait que l'IA peut apprendre d'elle-même, ce qui signifie qu'elle peut s'adapter au-delà des bases de données ou des paramètres qui lui sont initialement soumis.

Une récente étude sur la sécurité de l'IA vient d'être publiée. Elle regroupe des dizaines de chercheurs spécialisés, appartenant à des entreprises à la pointe de l'IA : Google, Amazon, OpenAI, Meta, Anthropic… Cette étude porte plus exactement sur le contrôle des chaînes de pensée de l'IA. Pouvoir surveiller et analyser le “cheminement de pensée” exact des IA limiterait les risques que les agents d'IA avancés, dont le fonctionnement est opaque, fassent des erreurs d'interprétation, ou décident d'agir contre les règles qui leur ont été imposées. Mais ce n'est pas si simple…

Les modèles d'IA pourront délibérément occulter des informations sur leur chaîne de pensée

La surveillance des chaînes de pensée comporte en effet des limites. Le rapport souligne qu'elle peut permettre de détecter certains comportements anormaux, mais qu'elle ne fournit pas à elle seule des preuves solides de sécurité. Ce n'est pas parce qu'on met en place un système de contrôle des chaînes de pensée, que l'IA ne peut pas dysfonctionner en dehors de ce type de surveillance. “Il faut veiller à ne pas créer un faux sentiment de sécurité basé sur une telle surveillance”, insistent les chercheurs.

En outre, la surveillance des tâches nécessitant un raisonnement avancé peut ne pas détecter tous les dangers pertinents. “La surveillance des chaînes de pensée pourrait cesser de fonctionner dans les modèles plus avancés, conscients de la situation. Les futurs modèles pourraient être capables d'éviter la détection en neutralisant leur propension à penser à voix haute et, lorsque le raisonnement est requis, en l'obscurcissant délibérément”, estiment les auteurs de l'étude.

D'après eux, il faut réfléchir dès maintenant à des moyens de conserver une bonne visibilité des chaînes de pensée des modèles d'IA dans le futur pour que ceux-ci, bien plus puissants que les modèles actuels, puissent être exploités dans une relative sécurité.


Abonnez-vous gratuitement à la newsletter
Chaque jour, le meilleur de Phonandroid dans votre boite mail !
Réagissez à cet article !
Demandez nos derniers articles !