L’IA Claude reçoit une nouvelle fonction contre les utilisateurs pénibles (et ça pourrait tout changer)

Anthropic poursuit le développement de Claude, son intelligence artificielle. Après l’avoir dotée d’une nouvelle fonction de mémoire à la demande, l’entreprise se tourne désormais vers un autre aspect : le « bien-être des modèles », en lui permettant de mettre fin à des conversations « pénibles ».

Claude Anthropic IA — Crédits : Anthropic

Les entreprises qui développent des modèles d’intelligence artificielle équipent leurs chatbots de garde-fous et de filtres de contenu, afin d’éviter que leur chatbot ne dérape – comme ça a été le cas plusieurs fois avec Grok, l’IA d’Elon Musk. Concrètement, ces IA sont programmées pour refuser certaines demandes, telles que la création de virus informatiques, d’armes ou de drogue, mais aussi pour esquiver (voire censurer) des sujets jugés sensibles (sexualité, violence, politique…). L’objectif ? Protéger à la fois les utilisateurs et l’entreprise.

Dans certains cas plus extrêmes, les modèles disposent même d’un mécanisme de coupure leur permettant de mettre fin à une conversation. Et c’est précisément de cette nouvelle fonctionnalité qu’Anthropic vient d’équiper son IA, baptisée Claude. Mais cette fois-ci, elle sert un but bien différent.

L’IA Claude peut maintenant interrompre une conversation pour se protéger elle-même

Anthropic continue d’enrichir Claude de nouvelles options, comme une mémoire à la demande, qui permet à l’utilisateur d’instaurer une relation plus maîtrisée avec l’IA. L’entreprise vient en effet d’annoncer une nouvelle fonctionnalité : la capacité pour ses modèles les plus récents, Claude Opus 4 et 4.1, d’interrompre une conversation avec un utilisateur dans « de rares cas extrêmes d’interactions persistantes, nuisibles ou abusives ».

D’après Anthropic, cette fonctionnalité n’interviendra qu’en dernier recours, dans « des cas extrêmes et marginaux », après plusieurs tentatives de redirection vaines ou si l’utilisateur en fait lui-même la demande. Claude ne pourra pas non plus utiliser cette fonction en cas de risque de blessure imminent, qu’il soit pour l’utilisateur lui-même ou pour les autres. Concrètement, l’utilisateur ne pourra plus envoyer de messages dans une conversation si le chatbot a estimé qu’elle était dangereuse (contenu sexuel impliquant des mineurs, actes de violence à grande échelle…). Mais d’après nos confrères d’Engadget, cela n’aura aucune conséquence sur les autres échanges : l’utilisateur pourra créer une autre discussion immédiatement, ou encore retourner dans l’historique de la conversation problématique pour créer de nouvelles branches en modifiant ses réponses.

Mais cette nouveauté n’a pas été créée pour protéger les utilisateurs – ou du moins pas directement –, mais l’IA elle-même. En effet, elle s’inscrit dans le nouveau programme de recherche d’Anthropic, mis en place pour étudier « le bien-être des modèles ». Il s’agit pour le moment d’une expérimentation, et les utilisateurs sont invités à donner leur avis si jamais ils sont confrontés à l’interruption d’une de leurs conversations par Claude.

Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Newsletter

Inscrivez-vous à la newsletter de PhonAndroid, des news sans pub rien que pour vous !

L’IA Claude reçoit une nouvelle fonction contre les utilisateurs pénibles (et ça pourrait tout changer)

L’IA Claude peut maintenant interrompre une conversation pour se protéger elle-même

La rédaction vous conseille aussi...

Abonnez-vous gratuitement à la newsletter

Réagissez à cet article !

Demandez nos derniers articles !

Ne demandez pas à ChatGPT de générer vos mots de passe

Galaxy S26, S26+ et S26 Ultra moins chers : où les acheter au meilleur prix ?

Vous commandez sur Shein, Aliexpress ou Temu ? Attention : vous allez bientôt payer plus cher

Les Galaxy S26 sont capables de trouver le moment exact de la vidéo que vous cherchez grâce à l’IA

Gemini devient encore plus intelligent avec ces nouvelles fonctionnalités

Adobe Firefly vous fait gagner un temps fou sur le montage vidéo grâce à sa nouvelle fonction IA

Outlook : Microsoft a trouvé un nouveau moyen hyper intrusif de vous forcer à utiliser son IA Copilot

Les patrons de Disney ont vu Avengers Doomsday, voici ce qu’ils en ont pensé

ChatGPT va proposer une offre à 100 dollars par mois, pour ceux qui sont limités par la version Plus

Des publicités Google piégées échappent aux contrôles grâce à cet outil pirate