Attention à ce que vous partagez avec les chatbots, plus de 130 000 conversations sont archivées sur le web
On ne le répètera jamais assez : faites attention à ce que vous partagez sur le web. C’est une nouvelle polémique qui vient d’éclater : plus de 130 000 conversations avec des LLM partagées sont consultables sur le web. Cela met en lumière le problème de leur sauvegarde publique et de leur paramètre de confidentialité.

Décidément, les chatbots font parler d’eux ces derniers jours, et ce n’est pas seulement en bien. ChatGPT avait lancé une fonction permettant d’indexer sur Google les conversations partagées, ce qui n’a pas du tout plu aux utilisateurs lorsqu’ils s’en sont aperçu. Face aux vives réactions, OpenAI a rapidement désactivé ce paramètre.
Cependant, le problème d’archivage public des discussions avec les LLM partagées dépasse largement le cadre de Google d’après nos confrères de 404 Media : plus de 130 000 discussions avec divers chatbots avancés sont consultables sur Archive.org (Internet Archive).
Plus de 130 000 discussions avec des LLM consultables sur le web
Un chercheur, connu sous le pseudo dead1nfluence a découvert que plus de 130 000 discussions avec des LLM comme ChatGPT, Claude ou Grok sont détectables sur Archive.org. Cette situation alerte sur le problème de l’archivage publique de ces conversations, si les utilisateurs ne prêtent pas attention aux paramètres de confidentialité lors de leur partage. Dead1nfluence a déclaré a 404 Media qu’il avait « obtenu les URL de Grok, Mistral, Qwen, Claude et Copilot » et leur a partagé la liste de 130 000 liens de chats, ainsi qu’une partie de leur contenu.
Actuellement, une requête sur Internet Archive ne donne plus de résultat pour les liens de partage ChatGPT ; mais ceux de Grok, par exemple, sont toujours consultables. Concernant ChatGPT, dont le nouveau modèle vient de sortir, la fonctionnalité d’indexation avortée nécessitait l’acception de l’utilisateur, selon Dane Stuckey, RSSI d'OpenAI. Mais un chercheur anonyme a fourni à 404 Media les données de près de 100 000 conversations ChatGPT qui avaient été indexées. En substance ? Des textes présumés d’accords de non-divulgation ou de contrats confidentiels et des questions relatives à des problèmes relationnels.
Selon Dead1nfluence, il est indiqué que les liens partagés sont publics, mais la majeure partie des utilisateurs de cette fonctionnalité « ne s'attendaient pas à ce que ces liens soient accessibles à tous, et encore moins indexés et facilement consultables ». 404 Media a pris contact avec les propriétaires des LLM et leur a fourni des échantillons des liens : la plupart des entreprises n’a pas répondu, Microsoft (Copilot) n’a pas fourni de réponse à temps, et un porte-parole d’Anthropic a déclaré que les utilisateurs de Claude avaient le contrôle du partage public de leur conversations et que « ces liens partageables ne sont ni devinables ni détectables, sauf si les utilisateurs choisissent de les publier eux-mêmes. »
Au-delà du souci de confidentialité, cela pose un problème de sécurité. Dead1nfluence a en effet trouvé des clés API et d’autres informations précieuses qu’un pirate informatique ou un Red Team – un hacker éthique – pourrait exploiter. C’est un moyen, par exemple, de vérifier que les employés ne divulguent pas de données sensibles – même par inadvertance.


