Cette IA populaire se déguise en navigateur pour contourner les blocages et aspirer le web en cachette
Un moteur de réponses dopé à l’IA est accusé d’ignorer les règles des sites web. Il utiliserait des méthodes cachées pour contourner les blocages automatisés.

Depuis l’arrivée des outils d’intelligence artificielle grand public, les robots d’indexation se sont multipliés sur le web. ChatGPT, par exemple, traite plus de 2,5 milliards de requêtes par jour dans le monde, une croissance fulgurante qui pousse ces programmes à explorer toujours plus de contenus. Pour y parvenir, ces systèmes reposent sur des bots qui scannent automatiquement des millions de pages. En principe, ces robots doivent respecter les règles des sites web, notamment les fichiers robots.txt, qui indiquent ce qui peut être consulté ou non. Mais selon un rapport récent, l’IA Perplexity ignorerait volontairement ces restrictions.
Déjà en 2024, Cloudflare alertait sur l’explosion du trafic généré par les bots d’IA, dans son rapport annuel sur les tendances web. L’entreprise évoquait un écosystème de plus en plus saturé, entre bots déclarés comme ClaudeBot ou GPTBot, et d’autres, beaucoup plus discrets, aux pratiques floues.
Perplexity accède aux sites bloqués grâce à un robot déguisé en navigateur Chrome
Aujourd’hui, une nouvelle étude menée par Cloudflare cible directement Perplexity, un moteur de réponses propulsé par l’IA. Selon les chercheurs, ce service commencerait par utiliser son robot officiel pour accéder aux sites. Mais dès qu’un blocage est détecté, il changerait de stratégie en utilisant un robot déguisé, qui se fait passer pour un navigateur classique comme Google Chrome sur macOS. Pire encore, ces tentatives ne s’identifient plus du tout comme venant de l’IA, contournant ainsi les protections prévues.
L’étude révèle que Perplexity modifie son adresse IP, son identifiant utilisateur (user-agent) et même son fournisseur réseau pour tromper les systèmes de sécurité. Ces robots dissimulés ont été observés sur des milliers de sites, générant jusqu’à 6 millions de requêtes par jour. Des tests réalisés sur des pages secrètes et non indexées ont montré que Perplexity pouvait quand même en restituer le contenu. Ce comportement va à l’encontre des normes définies par Internet pour les robots automatisés.
À l’inverse, des entreprises comme OpenAI suivent des pratiques transparentes : leurs robots respectent les consignes, s’identifient clairement, et s’arrêtent dès qu’un site leur interdit l’accès. Ce type de comportement est crucial pour préserver la confiance sur le web. Face aux méthodes plus opaques de certains acteurs, des solutions existent : les sites peuvent bloquer les bots non déclarés ou exiger une vérification. Mais cette course à la discrétion risque de s’intensifier à mesure que l’IA cherche à tout explorer, même ce qui ne lui est pas destiné.

