Meta a piraté 82 To de livres pour entraîner illégalement son IA (et a tenté de le cacher)

Malgré les réticences de plusieurs employés, Meta a eu recours au torrenting pour télécharger 82 To de livres depuis des plateformes illégales. L'entreprise a aussi mis en place des systèmes pour empêcher qu'on ne remonte jusqu'à elle.

Le logo de Meta affiché sur un iPhone
Crédit : 123RF

Aux États-Unis, Meta est en plein procès pour violation de droits d'auteur, suite à un recours collectif qui accuse l'entreprise d'avoir entraîné illégalement ses modèles d'IA sur des livres protégés. Des documents issus de l'affaire sont en train d'être rendus publics, et permettent de se rendre compte de l'ampleur du piratage réalisé par la firme de Mark Zuckerberg, qui avait tout à fait conscience de ce qu'elle faisait et qui a tenté de dissimuler ses traces pour qu'on ne remonte pas jusqu'à elle.

Meta a téléchargé par torrent “au moins 81,7 téraoctets de données dans plusieurs bibliothèques fantômes via le site Anna's Archive, dont au moins 35,7 téraoctets de données venant de Z-Library et LibGen”, rapporte un dossier judiciaire. “L'ampleur du système de téléchargement illégal de fichiers torrent de Meta est stupéfiante”, ajoutent les auteurs du rapport. Ils précisent que “des actes de piratage de données bien plus modestes” (à peine 0,008 % du volume d'œuvres protégées par le droit d'auteur piratées par Meta) ont conduit les juges à ouvrir une enquête criminelle, sous-entendant qu'il serait logique que ce soit aussi le cas pour Meta.

Piratage massif d'œuvres protégées par le droit d'auteur

Dans le cadre de cette affaire, des emails internes ont été dévoilés, confirmant que les employés de Meta avaient bien conscience que les pratiques de l'entreprise sont au mieux immorales, au pire illégales. “Je ne pense pas que nous devrions utiliser du matériel piraté. Je dois vraiment fixer une limite à ce sujet”, a par exemple écrit un chercheur senior au sein de Meta AI.

“L'utilisation de matériel piraté devrait dépasser notre seuil éthique […] SciHub, ResearchGate, LibGen sont fondamentalement comme PirateBay ou d'autres services de ce type, ils distribuent du contenu protégé par le droit d'auteur et ils le violent”, a déclaré un autre chercheur de Meta AI. “Télécharger des torrents depuis un ordinateur portable d'entreprise ne me semble pas approprié”, a réagi un troisième employé.

Mark Zuckerberg assure ne pas avoir été impliqué dans les décisions menant à l'usage de LibGen pour former des modèles d'IA. Mais plusieurs témoignages contredisent cette version. L'information aurait bien été remontée auprès du patron de Meta, qui n'aurait pas mis de veto pour empêcher cette pratique. Pire, il l'aurait encouragée, déclarant pendant une réunion tenue en janvier 2023 qu'il fallait “faire avancer les choses” et “trouver un moyen de débloquer cela”.

Meta a tenté de dissimuler son recours aux torrents

Un autre reproche adressé à Meta est sa tentative de couvrir ses traces, prouvant que le groupe était bien conscient qu'il risquait des ennuis s'il était découvert. Nikolay Bashlyko, ingénieur de recherche chez Meta, s'inquiétait en avril 2023 de “l'utilisation des adresses IP de Meta pour télécharger du contenu pirate via des torrents”. Quelques mois plus tard, dans une conversation avec le service juridique de l'entreprise, il rappelait que le principe même du torrenting impliquait de participer au partage de ces fichiers piratés avec des tiers, “ce qui pourrait être légalement inacceptable”.

llama-2-meta
Crédit : Meta

Meta a entendu ses craintes, mais a préféré mettre en place des systèmes pour dissimuler son activité plutôt que d'y mettre un terme. Frank Zhang, un chercheur de Meta, parle dans un message interne de l'instauration d'un “mode furtif” pour le piratage. Celui-ci consiste à éviter d'utiliser les serveurs de Facebook lors du téléchargement des ensembles de données afin d'éviter le risque que l'on puisse “remonter la piste” du seeder ou du downloader.

Entendu par les autorités, un certain Michael Clark, cadre de Meta en charge de la gestion du projet, a admis que la société avait modifié des paramètres pour produire le moins de traces possibles. On imagine qu'il s'agit par exemple d'options permettant de télécharger des torrents, sans les partager en retour. Par ailleurs, il a été question de recourir à un VPN pour télécharger toutes ces données tout en masquant les adresses IP de Meta.

Ces détails risquent d'être primordiaux devant la justice, car l'un des axes de défense de Meta était jusqu'ici qu'il n'avait pas contribué au partage de contenus piratés. Un argument mis à mal par le recours au torrenting, qui signifie que Meta a bien tenu le rôle de distributeur. Toutefois, le fait que les plaignants ne puissent pas identifier exactement quels textes ont été piratés rend leur tâche bien compliquée pour obtenir d'éventuels dommages et intérêts.

Source : Ars Technica


Réagissez à cet article !

Demandez nos derniers articles !

Windows 11 : travaillez plus vite grâce à ces 5 outils bien cachés dans le système d’exploitation

Envie de travailler plus vite sur votre PC ? Bonne nouvelle, puisque Windows 11 embarque de nombreuses fonctionnalités méconnues pour vous aider à booster votre productivité. Faisons ensemble les présentations….

Tineco Floor One S6 Stretch Lite : plus de 67% de réduction sur cet aspirateur eau et poussière, vite !

À l’occasion de l’anniversaire AliExpress, vous pouvez vous offrir l’aspirateur sec et humide Tineco Floor One S6 Stretch Lite pour moins de 165 euros grâce au code FRASPHD20. Mais attention,…

YouTube supprime le compteur de J’aime et ça ne plaît pas à tout le monde

Après avoir supprimé le compteur de Je n’aime pas il y a quelques années, YouTube semble envisager de retirer également celui des J’aime. Au plus grand dam de certains utilisateurs….

Le nouveau Ninja CRISPi PRO est enfin là, et pour fêter la sortie du airfryer, la marque vous offre un cadeau !

La famille des friteuses sans huile du géant américain s’agrandit avec un nouveau modèle : le Ninja CRISPi PRO. Ce airfryer polyvalent dispose d’un contenant en verre plus grand tout…

Avec les Bravia 2 II et Bravia 3 II, Sony démontre qu’il sait faire des TV abordables

Alors que plusieurs concurrents s’apprêtent à lancer des modèles RGB LED, Sony prend à contrepied le marché en présentant deux TV abordables : les Bravia 2 II et Bravia 3…

TV

L’application Gemini sur Android va changer du tout au tout, à quoi faut-il s’attendre ?

Google travaille sur une refonte de l’application Gemini sur Android. Plusieurs modifications d’interface vont être opérées, et on sait déjà lesquelles. L’interface de l’application Gemini sur Android ne va bientôt…

IA

iOS 27 : bouton « Ask Siri », application dédiée… voici le plan d’Apple pour enfin réinventer Siri

Siri : ce nom est synonyme de déceptions pour certains et d’espoirs pour d’autres. Attendue pour iOS 26.4, la nouvelle version de l’assistant d’Apple n’a toujours pas pointé le bout de…

Samsung anticipe la sortie de l’iPhone pliable : découvrez le nouveau Galaxy Z Fold Wide

Samsung va lancer un nouveau design de smartphone pliable. Il s’agit d’un format livre comme les Galaxy Z Fold, mais moins haut et plus large. L’objectif est d’anticiper l’arrivée sur…

8BitDo Pro 3 : cette excellente manette sans fil pour Switch 2 est à prix cassé jusqu’à ce soir

Vous cherchez une bonne manette pour votre Switch 1 ou 2 ? En ce moment sur AliExpress, vous pouvez vous offrir la 8BitDo Pro 3 à prix cassé grâce à…

Volkswagen rappelle presque 100 000 voitures électriques à cause de leur batterie qui peut prendre feu

Après un mois de janvier mouvementé pour Volkswagen, le constructeur prend de nouveau des mesures préventives pour éviter un accident de batterie. Au total, ce sont presque 100 000 voitures…