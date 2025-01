L’utilisation de contenus protégés par le droit d’auteur pour entraîner les intelligences artificielles fait débat. Un modèle de langage open-source a été contraint de fermer sous la pression d’un groupe anti-piratage.

L’intelligence artificielle transforme en profondeur le paysage numérique. En 2024, les bots d’entraînement des IA ont représenté une part croissante du trafic internet, avec des outils comme GPTBot et ClaudeBot scannant massivement le web pour collecter des données. Cette pratique soulève des inquiétudes, notamment sur le respect du droit d’auteur. Récemment, Meta a été accusé d’avoir utilisé des livres piratés issus de la bibliothèque en ligne LibGen pour entraîner son IA Llama. Dans ce contexte, de nombreux groupes de défense des droits d’auteur intensifient leurs actions pour limiter l’exploitation non autorisée de contenus protégés, à l’image de l’organisation néerlandaise BREIN.

Aux Pays-Bas, le groupe anti-piratage BREIN a récemment revendiqué le retrait de GEITje-7B, un modèle de langage néerlandais populaire. Cette LLM (Large Language Model, ou grand modèle de langage) est une intelligence artificielle capable de comprendre et générer du texte après avoir été entraînée sur d’importantes bases de données. Son entraînement s’est fait sur un dataset appelé Gigacorpus, contenant des textes issus de bibliothèques en ligne controversées comme LibGen. BREIN accuse ces pratiques de bafouer les droits des créateurs, tandis que le développeur du modèle estime qu’il s’agissait d’un projet scientifique respectant certaines exceptions légales.

L’IA GEITje-7B disparaît sous la pression de l’organisation anti-piratage BREIN

BREIN affirme que de nombreux modèles d’IA sont entraînés sans respecter les droits d’auteur. L’organisation considère que les créateurs et éditeurs investissent du temps et des ressources dans leurs œuvres, et que leur exploitation sans autorisation est inacceptable. L’association a donc demandé son retrait en invoquant la législation européenne sur l’IA, qui impose l’usage de contenus acquis légalement.

Face à cette pression, le développeur de GEITje, Edwin Rijgersberg, a préféré se conformer à la demande de BREIN plutôt que d’engager une bataille juridique coûteuse. Il rappelle toutefois que son projet était non commercial et à visée scientifique. Malgré l’arrêt de ce dernier, il reste optimiste quant à l’avenir des IA open-source en Europe. Pour lui, seul un accès libre aux modèles et aux données permettra un développement indépendant de l’intelligence artificielle sur le continent.

Source : BREIN