Meta a piraté 82 To de livres pour entraîner illégalement son IA (et a tenté de le cacher)

Malgré les réticences de plusieurs employés, Meta a eu recours au torrenting pour télécharger 82 To de livres depuis des plateformes illégales. L'entreprise a aussi mis en place des systèmes pour empêcher qu'on ne remonte jusqu'à elle.

Le logo de Meta affiché sur un iPhone
Crédit : 123RF

Aux États-Unis, Meta est en plein procès pour violation de droits d'auteur, suite à un recours collectif qui accuse l'entreprise d'avoir entraîné illégalement ses modèles d'IA sur des livres protégés. Des documents issus de l'affaire sont en train d'être rendus publics, et permettent de se rendre compte de l'ampleur du piratage réalisé par la firme de Mark Zuckerberg, qui avait tout à fait conscience de ce qu'elle faisait et qui a tenté de dissimuler ses traces pour qu'on ne remonte pas jusqu'à elle.

Meta a téléchargé par torrent “au moins 81,7 téraoctets de données dans plusieurs bibliothèques fantômes via le site Anna's Archive, dont au moins 35,7 téraoctets de données venant de Z-Library et LibGen”, rapporte un dossier judiciaire. “L'ampleur du système de téléchargement illégal de fichiers torrent de Meta est stupéfiante”, ajoutent les auteurs du rapport. Ils précisent que “des actes de piratage de données bien plus modestes” (à peine 0,008 % du volume d'œuvres protégées par le droit d'auteur piratées par Meta) ont conduit les juges à ouvrir une enquête criminelle, sous-entendant qu'il serait logique que ce soit aussi le cas pour Meta.

Piratage massif d'œuvres protégées par le droit d'auteur

Dans le cadre de cette affaire, des emails internes ont été dévoilés, confirmant que les employés de Meta avaient bien conscience que les pratiques de l'entreprise sont au mieux immorales, au pire illégales. “Je ne pense pas que nous devrions utiliser du matériel piraté. Je dois vraiment fixer une limite à ce sujet”, a par exemple écrit un chercheur senior au sein de Meta AI.

“L'utilisation de matériel piraté devrait dépasser notre seuil éthique […] SciHub, ResearchGate, LibGen sont fondamentalement comme PirateBay ou d'autres services de ce type, ils distribuent du contenu protégé par le droit d'auteur et ils le violent”, a déclaré un autre chercheur de Meta AI. “Télécharger des torrents depuis un ordinateur portable d'entreprise ne me semble pas approprié”, a réagi un troisième employé.

Mark Zuckerberg assure ne pas avoir été impliqué dans les décisions menant à l'usage de LibGen pour former des modèles d'IA. Mais plusieurs témoignages contredisent cette version. L'information aurait bien été remontée auprès du patron de Meta, qui n'aurait pas mis de veto pour empêcher cette pratique. Pire, il l'aurait encouragée, déclarant pendant une réunion tenue en janvier 2023 qu'il fallait “faire avancer les choses” et “trouver un moyen de débloquer cela”.

Meta a tenté de dissimuler son recours aux torrents

Un autre reproche adressé à Meta est sa tentative de couvrir ses traces, prouvant que le groupe était bien conscient qu'il risquait des ennuis s'il était découvert. Nikolay Bashlyko, ingénieur de recherche chez Meta, s'inquiétait en avril 2023 de “l'utilisation des adresses IP de Meta pour télécharger du contenu pirate via des torrents”. Quelques mois plus tard, dans une conversation avec le service juridique de l'entreprise, il rappelait que le principe même du torrenting impliquait de participer au partage de ces fichiers piratés avec des tiers, “ce qui pourrait être légalement inacceptable”.

llama-2-meta
Crédit : Meta

Meta a entendu ses craintes, mais a préféré mettre en place des systèmes pour dissimuler son activité plutôt que d'y mettre un terme. Frank Zhang, un chercheur de Meta, parle dans un message interne de l'instauration d'un “mode furtif” pour le piratage. Celui-ci consiste à éviter d'utiliser les serveurs de Facebook lors du téléchargement des ensembles de données afin d'éviter le risque que l'on puisse “remonter la piste” du seeder ou du downloader.

Entendu par les autorités, un certain Michael Clark, cadre de Meta en charge de la gestion du projet, a admis que la société avait modifié des paramètres pour produire le moins de traces possibles. On imagine qu'il s'agit par exemple d'options permettant de télécharger des torrents, sans les partager en retour. Par ailleurs, il a été question de recourir à un VPN pour télécharger toutes ces données tout en masquant les adresses IP de Meta.

Ces détails risquent d'être primordiaux devant la justice, car l'un des axes de défense de Meta était jusqu'ici qu'il n'avait pas contribué au partage de contenus piratés. Un argument mis à mal par le recours au torrenting, qui signifie que Meta a bien tenu le rôle de distributeur. Toutefois, le fait que les plaignants ne puissent pas identifier exactement quels textes ont été piratés rend leur tâche bien compliquée pour obtenir d'éventuels dommages et intérêts.

Source : Ars Technica


Abonnez-vous gratuitement à la newsletter

Chaque jour, le meilleur de Phonandroid dans votre boite mail !

Réagissez à cet article !

Demandez nos derniers articles !

Bon plan TV S95F : Samsung propose une grosse remise sur sa meilleure TV OLED

Samsung baisse fortement le prix de la TV OLED la plus avancée du moment. Le modèle S95F sorti l’année dernière est en promotion dans ses versions de 55 pouces et…

Discord a menti : les selfies vidéo pour vérifier son âge seront traités par un tiers

Discord a annoncé qu’un système de vérification de l’âge va être déployé sur la plateforme. Pour rassurer les utilisateurs, on nous promettait que les selfies vidéo nécessaires pour prouver sa…

Samsung prépare une nouveauté bien utile pour sa mise à jour One UI 9

Now Nudge pourrait bien devenir l’une des fonctions IA les plus populaires sur les smartphones Samsung. Elle ne sera pas prête pour One UI 8.5, mais devrait l’être pour One…

Galaxy S26 : Samsung promet des photos de nuit de toute beauté

Samsung compte sur l’IA pour que les Galaxy S26 capturent de belles photos lumineuses en toutes circonstances, même de nuit.  Après des mois de rumeurs, Samsung a enfin officialisé la…

Le Ninja CRISPi chute à moins de 90 € et atteint son prix le plus bas : c’est le moment ou jamais de craquer !

Le Ninja CRISPi est un airfryer innovant qui vous permet de chauffer vos plats directement dans des contenants en verre que vous pouvez ensuite utiliser pour stocker les restes. Il…

Voici pourquoi chaque éclipse solaire est suivie d’une éclipse lunaire

Les éclipses ne se produisent jamais au hasard. Elles suivent un cycle régulier, appelé saison des éclipses, qui revient deux fois par an. Lorsqu’une éclipse solaire se produit, une éclipse…

QuitGPT, le boycott de ChatGPT prend de l’ampleur sur fond de scandale

ChatGPT fait face à un boycott inédit lancé par un mouvement baptisé QuitGPT. En cause, des liens politiques et des contrats avec des agences gouvernementales. Des milliers d’utilisateurs affirment avoir…

IA

580 € de remise sur le Galaxy Z Fold 7 : belle chute de prix sur le smartphone pliable de Samsung

Le Galaxy Z Fold 7, l’un des smartphones pliables les plus populaires du marché voit son prix chuter de près de 600 € sur le site officiel de Samsung. La…

Encore une fuite de données chez Relais Colis, avec des dangers concrets pour les victimes

Relais Colis est victime d’une nouvelle intrusion dans ses systèmes, menant au vol de données personnelles de ses clients. On n’en voit plus le bout. Il y a quelques semaines,…

ChatGPT déjà en danger de mort ? Microsoft veut retirer son soutien à OpenAI

Microsoft va développer ses propres modèles d’IA au lieu de compter sur ceux d’OpenAI. Pourtant pionnière du secteur avec ChatGPT, l’avenir s’assombrit pour la société dirigée par Sam Altman. Fin…

IA