Meta a piraté 82 To de livres pour entraîner illégalement son IA (et a tenté de le cacher)

Malgré les réticences de plusieurs employés, Meta a eu recours au torrenting pour télécharger 82 To de livres depuis des plateformes illégales. L'entreprise a aussi mis en place des systèmes pour empêcher qu'on ne remonte jusqu'à elle.

Le logo de Meta affiché sur un iPhone
Crédit : 123RF

Aux États-Unis, Meta est en plein procès pour violation de droits d'auteur, suite à un recours collectif qui accuse l'entreprise d'avoir entraîné illégalement ses modèles d'IA sur des livres protégés. Des documents issus de l'affaire sont en train d'être rendus publics, et permettent de se rendre compte de l'ampleur du piratage réalisé par la firme de Mark Zuckerberg, qui avait tout à fait conscience de ce qu'elle faisait et qui a tenté de dissimuler ses traces pour qu'on ne remonte pas jusqu'à elle.

Meta a téléchargé par torrent “au moins 81,7 téraoctets de données dans plusieurs bibliothèques fantômes via le site Anna's Archive, dont au moins 35,7 téraoctets de données venant de Z-Library et LibGen”, rapporte un dossier judiciaire. “L'ampleur du système de téléchargement illégal de fichiers torrent de Meta est stupéfiante”, ajoutent les auteurs du rapport. Ils précisent que “des actes de piratage de données bien plus modestes” (à peine 0,008 % du volume d'œuvres protégées par le droit d'auteur piratées par Meta) ont conduit les juges à ouvrir une enquête criminelle, sous-entendant qu'il serait logique que ce soit aussi le cas pour Meta.

Piratage massif d'œuvres protégées par le droit d'auteur

Dans le cadre de cette affaire, des emails internes ont été dévoilés, confirmant que les employés de Meta avaient bien conscience que les pratiques de l'entreprise sont au mieux immorales, au pire illégales. “Je ne pense pas que nous devrions utiliser du matériel piraté. Je dois vraiment fixer une limite à ce sujet”, a par exemple écrit un chercheur senior au sein de Meta AI.

“L'utilisation de matériel piraté devrait dépasser notre seuil éthique […] SciHub, ResearchGate, LibGen sont fondamentalement comme PirateBay ou d'autres services de ce type, ils distribuent du contenu protégé par le droit d'auteur et ils le violent”, a déclaré un autre chercheur de Meta AI. “Télécharger des torrents depuis un ordinateur portable d'entreprise ne me semble pas approprié”, a réagi un troisième employé.

Mark Zuckerberg assure ne pas avoir été impliqué dans les décisions menant à l'usage de LibGen pour former des modèles d'IA. Mais plusieurs témoignages contredisent cette version. L'information aurait bien été remontée auprès du patron de Meta, qui n'aurait pas mis de veto pour empêcher cette pratique. Pire, il l'aurait encouragée, déclarant pendant une réunion tenue en janvier 2023 qu'il fallait “faire avancer les choses” et “trouver un moyen de débloquer cela”.

Meta a tenté de dissimuler son recours aux torrents

Un autre reproche adressé à Meta est sa tentative de couvrir ses traces, prouvant que le groupe était bien conscient qu'il risquait des ennuis s'il était découvert. Nikolay Bashlyko, ingénieur de recherche chez Meta, s'inquiétait en avril 2023 de “l'utilisation des adresses IP de Meta pour télécharger du contenu pirate via des torrents”. Quelques mois plus tard, dans une conversation avec le service juridique de l'entreprise, il rappelait que le principe même du torrenting impliquait de participer au partage de ces fichiers piratés avec des tiers, “ce qui pourrait être légalement inacceptable”.

llama-2-meta
Crédit : Meta

Meta a entendu ses craintes, mais a préféré mettre en place des systèmes pour dissimuler son activité plutôt que d'y mettre un terme. Frank Zhang, un chercheur de Meta, parle dans un message interne de l'instauration d'un “mode furtif” pour le piratage. Celui-ci consiste à éviter d'utiliser les serveurs de Facebook lors du téléchargement des ensembles de données afin d'éviter le risque que l'on puisse “remonter la piste” du seeder ou du downloader.

Entendu par les autorités, un certain Michael Clark, cadre de Meta en charge de la gestion du projet, a admis que la société avait modifié des paramètres pour produire le moins de traces possibles. On imagine qu'il s'agit par exemple d'options permettant de télécharger des torrents, sans les partager en retour. Par ailleurs, il a été question de recourir à un VPN pour télécharger toutes ces données tout en masquant les adresses IP de Meta.

Ces détails risquent d'être primordiaux devant la justice, car l'un des axes de défense de Meta était jusqu'ici qu'il n'avait pas contribué au partage de contenus piratés. Un argument mis à mal par le recours au torrenting, qui signifie que Meta a bien tenu le rôle de distributeur. Toutefois, le fait que les plaignants ne puissent pas identifier exactement quels textes ont été piratés rend leur tâche bien compliquée pour obtenir d'éventuels dommages et intérêts.

Source : Ars Technica


Réagissez à cet article !

Demandez nos derniers articles !

Cette mise à jour Tesla pourrait vous éviter de graves blessures lors d’un accident

La sécurité automobile se joue parfois à quelques millièmes de seconde. Tesla compte bien exploiter ce laps de temps minuscule avec une nouvelle approche. La marque déploie une mise à…

Vélos électriques Fiido : ces 3 nouveaux modèles remplacent votre voiture et votre équipement de rando

Un VAE capable de tenir 225 km sur une charge et deux cargos familiaux pour en finir avec la deuxième voiture : Fiido lance trois nouveaux modèles. Et si votre…

Pour échapper à la pénurie de RAM, AMD mise sur une idée étonnante

Les prix de la RAM atteignent des sommets et plombent les budgets informatiques. Face à cette flambée, AMD décide de passer à l’offensive. La marque vient de racheter une startup…

20 ans après sa sortie, Google Finance a une application Android

Il aura fallu de longues années, mais cette fois, ça y est : le service Web Google Finance débarque sur Android dans une application dédiée. Elle profite de la refonte…

Cette planète orbite si près de son étoile qu’elle illumine sa surface à son passage

Les exoplanètes réservent encore bien des surprises aux astronomes. L’une d’elles frôle tellement son étoile que leurs champs magnétiques finissent par se relier. Résultat, l’astre se met à briller à…

Jusqu’à 700 € de hausse : Apple augmente le prix de ses produits et ça fait très mal

Tim Cook nous avait prévenus, voilà que la menace a été mise à exécution. Hier, une grande partie du catalogue d’Apple a eu droit à une très forte hausse des…

L’IA aide à lire un parchemin carbonisé par l’éruption du Vésuve il y a 2000 ans

2000 ans après sa rédaction, un parchemin en provenance d’Herculanum, ville détruite par l’éruption du Vésuve, dévoile ses secrets grâce à l’intelligence artificielle. Voici ce que l’on a pu déchiffrer….

Android : un étrange bug fait disparaître les photos stockées sur votre smartphone, voici comment éviter de tout perdre

Sur Reddit, un utilisateur explique avoir découvert un bug faisant disparaître ses photos sur son Nothing Phone 2a. En vérité, celui-ci peut concerner beaucoup plus d’utilisateurs sur d’autres modèles. On…

Ce métier échappera à l’intelligence artificielle, Bill Gates donne une raison toute simple

Bill Gates voit l’intelligence artificielle bouleverser presque tous les secteurs. Le cofondateur de Microsoft épargne pourtant un métier bien précis. Sa raison tient à un détail très humain que personne…

Bose QuietComfort Ultra 2 : avec 100 € de remise, l’excellent casque est à prix cassé pour quelques heures encore !

C’est déjà le dernier jour des Prime Day ! Si vous attendiez une belle offre pour vous offrir l’excellent Bose Casque QuietComfort Ultra 2ème génération, Amazon le propose actuellement 100 €…