Instagram, YouTube, TikTok : vos données sont-elles utilisées pour entraîner l’IA des géants du web ?
Pour continuer de s'améliorer, l'IA a besoin d'une chose : une quantité continue et infinie de données. Comment les géants du web comme TikTok, Instagram ou YouTube font-ils pour alimenter leur intelligence artificielle ? D'après cette étude, ils pourraient être nombreux à se servir directement des données des utilisateurs.

Aujourd'hui, l'IA est partout. Sur les réseaux sociaux, sur nos navigateurs, dans les logiciels de bureautique, directement intégrée dans nos smartphones… On en trouve même dans les jouets pour enfant ! Forcément, pour continuer à abreuver et améliorer les compétences de leurs IA respectives, les géants du web ont besoin d'une quantité infinie et continue de données.
Incogni, société spécialisée dans la suppression des données sur le web, s'est justement penchée sur cette question épineuse, à savoir comment les plateformes gèrent la confidentialité des données des utilisateurs à l'heure de l'IA. Pour aboutir à un classement général, les experts d'Incogni ont donc identifié les 15 plateformes les plus populaires (en fonction du nombre d'utilisateurs mensuels) avant de les classer sur 14 critères précis répartis en 6 catégories :
- intégration et formation à l'IA
- violations réglementaires liées à la confidentialité
- collecte de données
- contrôle et consentement de l'utilisateur
- transparence et accessibilité

Vos données sont-elles utilisées pour l'IA ? Le flou demeure sur trop de plateformes
En premier lieu, Incogni s'est intéressée à l'intégration de l'IA sur les réseaux sociaux, et surtout sur son impact sur la vie privée des utilisateurs. L'idée étant de chercher à savoir si vos données peuvent être utilisées pour entraîner les modèles d'IA des plateformes, si des entreprises partenaires peuvent les exploiter ou encore s'il est possible ou non de manifester son refus.
Trois bons élèves seulement sur 15
Pour ce faire, l'entreprise a passé au peigne fin la politique de confidentialité de chaque plateforme ainsi que toutes les ressources juridiques et de confidentialité accessibles aux utilisateurs. Concrètement, Telegram, Twitch et Discord font partie des meilleurs élèves. Pour cause, ces trois plateformes sont les seules du classement à affirmer explicitement que les données des utilisateurs ne seront pas exploitées pour entraîner l'IA ou cédées à d'autres entreprises spécialisées dans l'IA. Chez Quora, on saluera le fait que les utilisateurs peuvent au moins refuser de voir leurs données exploiter par des entreprises partenaires.

Le flou chez TikTok et Reddit
Concernant TikTok, le discours du réseau chinois est un peu contradictoire. Si le terme IA n'est jamais mentionné explicitement dans sa politique de confidentialité, il est toutefois précisé que les données des utilisateurs pourront être utilisées pour “améliorer les modèles d'apprentissage automatique et développer des produits”. Or, quand on sait que TikTok a présenté en mai dernier AI Alive, une IA qui permet d'animer des photos, il y a de fortes chances pour que vos données soient utilisées pour l'entraîner.
Du côté de Reddit, la plateforme a confirmé qu'elle n'entraînait pas de modèles génératifs. Néanmoins, elle a donné accès au contenu généré par les utilisateurs à plusieurs développeurs d'IA.
Une pratique assumée chez les autres
En revanche, certaines plateformes affirment sans sourciller qu'elles s'emparent des données des utilisateurs pour entraîner leurs modèles génératifs. Sans réelle surprise, on retrouve dans le lot les principaux services de Meta comme Facebook Messenger, Instagram, Facebook ou encore WhatsApp. C'est également le cas de YouTube, de Snapchat, de Pinterest, de X ou encore de LinkedIn.
À lire également : L’IA a déjà commencé à voler des emplois, voici les secteurs les plus touchés
Quelles sont les données collectées par les plateformes ?
Pour cette section, les chercheurs d'Incogni ont déterminé la quantité de données collectées par les plateformes pour entraîner leur IA. Ici encore, certains résultats font froid dans le dos. Concrètement, voici le type de données qui sont le plus souvent récupérées par les plateformes pour entraîner leur IA :
- les identifiants
- les informations commerciales
- l'historique internet et les informations sur votre machine
- la géolocalisation
- certaines informations audio et visuelles (photos, vidéos, messages vocaux, etc.)

Ainsi, toutes les plateformes, à l'exception de WhatsApp, Telegram et Quora, pouvaient tirer des conclusions des autres données collectées pour établir le profil des utilisateurs. Des données professionnelles ou liées à votre emploi sont également collectées par les services de Meta (à l'exception de WhatsApp), Pinterest, X, Reddit, Quora, LinkedIn et Twitch.
Pire encore, les chercheurs ont constaté que les plateformes engrangeaient également d'autres informations via leur appli mobile. LinkedIn collecte ainsi des données sur l'origine ethnique des utilisateurs, tandis que la majorité des services de Meta (sauf WhatsApp) peuvent récupérer des données sur l'orientation sexuelle et la santé des utilisateurs. Quant à votre historique de recherche, il peut être transmis à des tiers chez Pinterest, Reddit et Quora.

