Meta a possiblement entraîné son IA avec des livres piratés

Dans un procès qui l'oppose à plusieurs ayants droit, Meta admet avoir entraîné son IA avec des parties d'une base de données contenant des livres piratés. L'entreprise nie avoir violé les droits des auteurs concernés.

Livres
Crédits : 123RF

Nous vous parlons assez souvent d'intelligence artificielle. La technologie a fait un immense bond en avant et l'arrivée de ChatGPT notamment l'a rendu accessible au plus grand nombre. Si vous utilisez ce chatbot ou un autre de temps en temps, vous savez que les réponses fournies sont le fruit d'un entraînement. Des milliards de données ont été transmises aux l'IA afin qu'elles apprennent quoi dire selon ce qu'on leur demande. Le principe est le même quel que soit le but recherché : détecter une maladie, lire dans les pensées, générer des images

Et c'est justement ce procédé qui pose de plus en plus de problèmes aujourd'hui. Dans l'immense majorité des cas, les données permettant de développer les intelligences artificielles sont récupérées à la source la plus fournie qui soit : Internet. Sauf que sur le Web, on trouve des textes et des œuvres libres de droits certes, mais aussi beaucoup d'autres protégées par des droits d'auteur. À mesure que le temps passe, les personnes concernés multiplient les attaques en justice. C'est ainsi qu'OpenAI, à l'origine de ChatGPT, se retrouve empêtré dans des procès sans fin. La maison-mère de Facebook, Meta, est également sous le coup de plusieurs actions judiciaires.

Meta est accusé d'avoir entraîné son IA avec du matériel protégé par droits d'auteur

Pour comprendre pourquoi Meta est visé ici, il faut remonter en 2020. Cette année-là, Shawn Presser, chercheur en intelligence artificielle crée Book3. Il s'agit d'une base de données reprenant le contenu du site Bibliotik, alors hébergé publiquement par le collectif The Eye. À l'intérieur, 195 000 livres regroupés dans 37 Go de données à des fins d'archivage. Avec Book3, l'objectif de Presser est d'offrir des donnés à tous ceux qui veulent développer un modèle d'IA. Le problème, c'est que dans le tas, il y a des livres protégés, donc piratés.

Lire aussi – ChatGPT : l’IA générative est menacée par un procès historique

Book3 reste accessible pendant des années avant de disparaître progressivement des sites Web sur lesquels l'archive est hébergée. À la demande d'ayants droit bien sûr. Avant cela, les grands noms de la Tech comme Meta ont eu largement le temps de s'en servir, et c'est bien ça que les plaignants reprochent à la firme. Le procès est actuellement en cours, mais des documents montrent comment le groupe de Mark Zuckerberg compte se défendre. Dans un premier temps, Meta admet avoir utilisé Book3 pour entraîner son IA.

L'IA de Meta a peut-être reçu des livres piratés en guise d'entraînement, l'entreprise nie

On peut ainsi lire : “Meta admet avoir utilisé des parties de l'ensemble de données Books3, parmi de nombreux autres matériaux, pour entraîner Llama 1 et Llama 2”. Il s'agit de ses modèles de langage, dont la 2e itération est disponible depuis l'été 2023. La question est maintenant de savoir si cela constitue une infraction aux droits d'auteur. Par exemple, les plaignants disent que Mera aurait dû demander la permission d'utiliser leurs œuvres.  Mais “Meta nie que son utilisation d'œuvres protégées par le droit d'auteur pour entraîner Llama ait nécessité un consentement, un crédit ou une compensation”. Et pas la peine de parler de piratage puisque “Meta nie avoir violé les droits d'auteur présumés des plaignants”.

Lire aussi – Google face à une amende record de 7 milliards, le procès s’annonce historique

Pour justifier son utilisation de Book3, Meta se cache derrière la notion de “fair use”, ou usage raisonnable, en indiquant que “les copies non autorisées des œuvres protégées par le droit d'auteur […],  constituent une utilisation équitable […]”. La tactique est connue et largement répandue dans ce genre d'affaires liées à l'intelligence artificielle. Elle s'applique d'ailleurs aussi bien aux œuvres supposément piratées que celles publiées sur des canaux accessibles publiquement mais utilisées sans permission.

Ce procès et les autres n'en sont qu'à leur début et beaucoup de choses peuvent se passer d'ici le rendu d'une décision. En dernier recours, c'est la Cour Suprême américaine qui pourrait être amenée à trancher. Quel que soit le verdict final, il aura un impact significatif sur le développement futur des intelligences artificielles.

Source : TorrentFreak


Réagissez à cet article !

Demandez nos derniers articles !

Amazon réduit de moitié le prix du Fire TV Stick 4K Select : ce petit dongle redonne un second souffle aux vieilles TV

Amazon propose actuellement le Fire TV Stick 4K Select à 26,99 € au lieu de 54,99 €, soit une réduction de plus de 50 % par rapport à son prix…

Galaxy A56 : ces 250 € de remise font fondre le prix du smartphone de Samsung, c’est une affaire !

À la base, le Galaxy A56 est le smartphone de milieu de gamme de Samsung. Mais grâce à une double promotion, vous pourrez le trouver à moins de 300 euros…

Gemini se met aussi aux bulles sur Android 17, de quoi ravir les adeptes du multitâche sur smartphone

Lors de sa conférence Google I/O, le géant de Mountain View a annoncé une petite révolution – notamment « agentique » – pour Gemini. Et l’entreprise poursuit ses efforts pour rendre son…

Smartphones : n’achetez surtout pas ces coques de protection, elles ne sont pas aussi efficaces que vous le pensez

Séduisantes sur le papier, les coques antibactériennes ne sont pas forcément les plus efficaces pour vous protéger contre les microbes. Cette bonne vieille méthode reste encore la meilleure option, en…

Cette exoplanète rôtie par son étoile fait avancer la science, malgré elle

Comme toute Jupiter chaude, l’exoplanète HD 80606 b voit sa température grimper dès qu’elle frôle son étoile. Mais cette géante gazeuse est en réalité un monde bien plus extrême que…

Pixel 10 Pro : le flagship de Google est à moins de 700 € avec un Google TV Streamer et un support de smartphone Pixelsnap offerts

Boulanger cumule les offres intéressantes sur le Google Pixel 10 Pro. Plus de 200 euros de réduction, 2 cadeaux, 6 mois d’assurances offerts, vous allez être gâté. Dans cet article,…

GTA 6 : on connaît enfin la date des précommandes et elle est imminente !

Treize ans : c’est le nombre d’années qu’il aura fallu pour que GTA 6 sorte enfin. Ce jeu est déjà, avant même sa sortie, un véritable phénomène mondial, au point qu’on…

Le DJI Mini 4K perd plus de 110 € : le drone ultra léger profite d’une remise de 37 %

Le DJI Mini 4K passe à moins de 190 € chez Amazon, grâce aux offres du Prime Day en avant-première. La baisse de prix est d’environ 37 % par rapport…

Porsche tranche enfin sur l’avenir de sa 911, et les puristes vont adorer

Depuis des années, les fans de la 911 tremblaient à l’idée de voir leur bolide culte passer à l’électrique. Le nouveau patron de Porsche vient enfin de les rassurer en…

Dreame H12 Pro Ultra : l’aspirateur laveur avec auto-nettoyage est à moitié prix chez Amazon

Amazon baisse fortement le prix du Dreame H12 Pro Ultra à l’approche du Prime Day. L’aspirateur laveur est actuellement à moitié prix, et passe à seulement 158 €, au lieu…