Instagram, YouTube, TikTok : vos données sont-elles utilisées pour entraîner l’IA des géants du web ?

Pour continuer de s'améliorer, l'IA a besoin d'une chose : une quantité continue et infinie de données. Comment les géants du web comme TikTok, Instagram ou YouTube font-ils pour alimenter leur intelligence artificielle ? D'après cette étude, ils pourraient être nombreux à se servir directement des données des utilisateurs.

etude donnees IA plateformes — Crédits : Adobe Stock

Aujourd'hui, l'IA est partout. Sur les réseaux sociaux, sur nos navigateurs, dans les logiciels de bureautique, directement intégrée dans nos smartphones… On en trouve même dans les jouets pour enfant ! Forcément, pour continuer à abreuver et améliorer les compétences de leurs IA respectives, les géants du web ont besoin d'une quantité infinie et continue de données.

Incogni, société spécialisée dans la suppression des données sur le web, s'est justement penchée sur cette question épineuse, à savoir comment les plateformes gèrent la confidentialité des données des utilisateurs à l'heure de l'IA. Pour aboutir à un classement général, les experts d'Incogni ont donc identifié les 15 plateformes les plus populaires (en fonction du nombre d'utilisateurs mensuels) avant de les classer sur 14 critères précis répartis en 6 catégories :

intégration et formation à l'IA
violations réglementaires liées à la confidentialité
collecte de données
contrôle et consentement de l'utilisateur
transparence et accessibilité

Vos données sont-elles utilisées pour l'IA ? Le flou demeure sur trop de plateformes

En premier lieu, Incogni s'est intéressée à l'intégration de l'IA sur les réseaux sociaux, et surtout sur son impact sur la vie privée des utilisateurs. L'idée étant de chercher à savoir si vos données peuvent être utilisées pour entraîner les modèles d'IA des plateformes, si des entreprises partenaires peuvent les exploiter ou encore s'il est possible ou non de manifester son refus.

Trois bons élèves seulement sur 15

Pour ce faire, l'entreprise a passé au peigne fin la politique de confidentialité de chaque plateforme ainsi que toutes les ressources juridiques et de confidentialité accessibles aux utilisateurs. Concrètement, Telegram, Twitch et Discord font partie des meilleurs élèves. Pour cause, ces trois plateformes sont les seules du classement à affirmer explicitement que les données des utilisateurs ne seront pas exploitées pour entraîner l'IA ou cédées à d'autres entreprises spécialisées dans l'IA. Chez Quora, on saluera le fait que les utilisateurs peuvent au moins refuser de voir leurs données exploiter par des entreprises partenaires.

Le flou chez TikTok et Reddit

Concernant TikTok, le discours du réseau chinois est un peu contradictoire. Si le terme IA n'est jamais mentionné explicitement dans sa politique de confidentialité, il est toutefois précisé que les données des utilisateurs pourront être utilisées pour “améliorer les modèles d'apprentissage automatique et développer des produits”. Or, quand on sait que TikTok a présenté en mai dernier AI Alive, une IA qui permet d'animer des photos, il y a de fortes chances pour que vos données soient utilisées pour l'entraîner.

Du côté de Reddit, la plateforme a confirmé qu'elle n'entraînait pas de modèles génératifs. Néanmoins, elle a donné accès au contenu généré par les utilisateurs à plusieurs développeurs d'IA.

Une pratique assumée chez les autres

En revanche, certaines plateformes affirment sans sourciller qu'elles s'emparent des données des utilisateurs pour entraîner leurs modèles génératifs. Sans réelle surprise, on retrouve dans le lot les principaux services de Meta comme Facebook Messenger, Instagram, Facebook ou encore WhatsApp. C'est également le cas de YouTube, de Snapchat, de Pinterest, de X ou encore de LinkedIn.

Quelles sont les données collectées par les plateformes ?

Pour cette section, les chercheurs d'Incogni ont déterminé la quantité de données collectées par les plateformes pour entraîner leur IA. Ici encore, certains résultats font froid dans le dos. Concrètement, voici le type de données qui sont le plus souvent récupérées par les plateformes pour entraîner leur IA :

les identifiants
les informations commerciales
l'historique internet et les informations sur votre machine
la géolocalisation
certaines informations audio et visuelles (photos, vidéos, messages vocaux, etc.)

Ainsi, toutes les plateformes, à l'exception de WhatsApp, Telegram et Quora, pouvaient tirer des conclusions des autres données collectées pour établir le profil des utilisateurs. Des données professionnelles ou liées à votre emploi sont également collectées par les services de Meta (à l'exception de WhatsApp), Pinterest, X, Reddit, Quora, LinkedIn et Twitch.

Pire encore, les chercheurs ont constaté que les plateformes engrangeaient également d'autres informations via leur appli mobile. LinkedIn collecte ainsi des données sur l'origine ethnique des utilisateurs, tandis que la majorité des services de Meta (sauf WhatsApp) peuvent récupérer des données sur l'orientation sexuelle et la santé des utilisateurs. Quant à votre historique de recherche, il peut être transmis à des tiers chez Pinterest, Reddit et Quora.

Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Newsletter

Inscrivez-vous à la newsletter de PhonAndroid, des news sans pub rien que pour vous !

Instagram, YouTube, TikTok : vos données sont-elles utilisées pour entraîner l’IA des géants du web ?

Vos données sont-elles utilisées pour l'IA ? Le flou demeure sur trop de plateformes

Trois bons élèves seulement sur 15

Le flou chez TikTok et Reddit

Une pratique assumée chez les autres

Quelles sont les données collectées par les plateformes ?

La rédaction vous conseille aussi...

Abonnez-vous gratuitement à la newsletter

Réagissez à cet article !

Demandez nos derniers articles !

Voici comment Android va sécuriser vos téléchargements grâce à Google Drive

Messenger.com vit ses derniers jours, on sera obligé de passer par Facebook pour envoyer et lire des messages

iOS 26.4 : voici comment activer la protection contre le vol d’iPhone sans attendre son déploiement par défaut

L’UE interdit certaines fonctions d’IA sur les ordinateurs de ses employés

Apple Music : ces 2 nouveautés ont un air de déjà-vu ? Normal, elles ressemblent fortement à celles de Spotify

Meilleures tablettes Samsung : quelle tablette choisir en 2026 ?

Google Messages corrige enfin ce problème qui agace les utilisateurs depuis des années

France Identité devient plus utile : un nouveau lieu acceptera bientôt l’application comme preuve officielle

Le Galaxy S26 Ultra plus performant que l’iPhone 17 Pro Max ? Apple ne domine plus

À peine sorti, le Honor Magic8 Lite passe à prix cassé dans un pack avec les Earbuds X8i !