L’IA Claude reçoit une nouvelle fonction contre les utilisateurs pénibles (et ça pourrait tout changer)
Anthropic poursuit le développement de Claude, son intelligence artificielle. Après l’avoir dotée d’une nouvelle fonction de mémoire à la demande, l’entreprise se tourne désormais vers un autre aspect : le « bien-être des modèles », en lui permettant de mettre fin à des conversations « pénibles ».

Les entreprises qui développent des modèles d’intelligence artificielle équipent leurs chatbots de garde-fous et de filtres de contenu, afin d’éviter que leur chatbot ne dérape – comme ça a été le cas plusieurs fois avec Grok, l’IA d’Elon Musk. Concrètement, ces IA sont programmées pour refuser certaines demandes, telles que la création de virus informatiques, d’armes ou de drogue, mais aussi pour esquiver (voire censurer) des sujets jugés sensibles (sexualité, violence, politique…). L’objectif ? Protéger à la fois les utilisateurs et l’entreprise.
Dans certains cas plus extrêmes, les modèles disposent même d’un mécanisme de coupure leur permettant de mettre fin à une conversation. Et c’est précisément de cette nouvelle fonctionnalité qu’Anthropic vient d’équiper son IA, baptisée Claude. Mais cette fois-ci, elle sert un but bien différent.
L’IA Claude peut maintenant interrompre une conversation pour se protéger elle-même
Anthropic continue d’enrichir Claude de nouvelles options, comme une mémoire à la demande, qui permet à l’utilisateur d’instaurer une relation plus maîtrisée avec l’IA. L’entreprise vient en effet d’annoncer une nouvelle fonctionnalité : la capacité pour ses modèles les plus récents, Claude Opus 4 et 4.1, d’interrompre une conversation avec un utilisateur dans « de rares cas extrêmes d’interactions persistantes, nuisibles ou abusives ».
D’après Anthropic, cette fonctionnalité n’interviendra qu’en dernier recours, dans « des cas extrêmes et marginaux », après plusieurs tentatives de redirection vaines ou si l’utilisateur en fait lui-même la demande. Claude ne pourra pas non plus utiliser cette fonction en cas de risque de blessure imminent, qu’il soit pour l’utilisateur lui-même ou pour les autres. Concrètement, l’utilisateur ne pourra plus envoyer de messages dans une conversation si le chatbot a estimé qu’elle était dangereuse (contenu sexuel impliquant des mineurs, actes de violence à grande échelle…). Mais d’après nos confrères d’Engadget, cela n’aura aucune conséquence sur les autres échanges : l’utilisateur pourra créer une autre discussion immédiatement, ou encore retourner dans l’historique de la conversation problématique pour créer de nouvelles branches en modifiant ses réponses.
Mais cette nouveauté n’a pas été créée pour protéger les utilisateurs – ou du moins pas directement –, mais l’IA elle-même. En effet, elle s’inscrit dans le nouveau programme de recherche d’Anthropic, mis en place pour étudier « le bien-être des modèles ». Il s’agit pour le moment d’une expérimentation, et les utilisateurs sont invités à donner leur avis si jamais ils sont confrontés à l’interruption d’une de leurs conversations par Claude.

