L’émergence de l’intelligence artificielle (IA) a transformé le paysage créatif, suscitant à la fois de l’enthousiasme et des préoccupations. L’un des enjeux majeurs est la question de l’utilisation des œuvres protégées par le droit d’auteur au sein des ensembles de données d’entraînement, souvent obscurs pour les créateurs. Dans ce contexte, les données fantômes, ces traces digitales laissées par les œuvres tout au long de leur parcours, pourraient constituer une avancée significative. Elles offriraient aux titulaires de droits une opportunité de vérification, leur permettant de déterminer si leurs créations sont intégrées dans ces vastes ensembles de données, et ce, souvent sans leur consentement. Cette quête de transparence pourrait redéfinir les relations entre artistes, technologies et droits d’auteur, ouvrant la voie à une meilleure protection des créations intellectuelles à l’ère numérique.
Inspirés par les cartographes du 20e siècle, des chercheurs de l’Imperial College de Londres ont proposé une nouvelle méthode pour identifier si des œuvres protégées par le droit d’auteur ont été utilisées pour entraîner des modèles de langage (LLMs). Cette technique novatrice a été présentée à la conférence internationale sur l’apprentissage machine de Vienne et détaillée dans un article prépublié sur le serveur arXiv.
Origine de l’idée
Le Dr. Yves-Alexandre de Montjoye, principal chercheur de cette étude, s’est inspiré des cartographes du début du 20e siècle pour développer cette méthode. Ces derniers inséraient des « villes fantômes » sur leurs cartes afin de détecter les copies illicites. De manière similaire, les chercheurs pensent qu’en injectant des phrases fictives, appelées « trappes à droits d’auteur », dans des textes, il serait possible de repérer l’utilisation non autorisée de ces contenus dans les modèles d’IA.
Mise en œuvre technique
Les propriétaires de contenu inséreraient des trappes à droits d’auteur dans leurs documents, tels que des articles de presse. Ces phrases, répétées plusieurs fois, passeraient inaperçues par les lecteurs humains mais seraient susceptibles d’être capturées par les systèmes de collecte de données destinées à l’entraînement des LLMs. Une fois le modèle entraîné, les irrégularités dans les sorties du modèle permettraient de prouver l’utilisation des trappes.
Avantages et défis
Cette méthode pourrait être particulièrement avantageuse pour les éditeurs en ligne, fournissant un outil efficace pour surveiller l’utilisation non autorisée de leurs contenus. Toutefois, le Dr. de Montjoye souligne que les développeurs de LLM pourraient créer des techniques pour retirer ces trappes, nécessitant des ressources d’ingénierie significatives pour rester en avance sur les nouvelles méthodes d’injection.
Perspectives et collaborations
Pour tester la validité de cette approche, l’équipe a collaboré avec des chercheurs en France, entraînant un modèle bilingue anglais-français de 1,3 milliard de paramètres. Les premiers résultats se sont révélés prometteurs, renforçant la transparence dans le domaine de l’entraînement des LLMs.
Problèmes de transparence
Selon le co-auteur Igor Shilov de l’Imperial College, la transparence reste un problème majeur dans le développement des modèles d’IA. Alors que la composition des ensembles de formation des modèles GPT-3 et LLaMA était publique, ce n’est plus le cas pour les modèles plus récents comme GPT-4 et LLaMA-2. Cette manque de transparence pose des questions sur la répartition équitable des profits et la responsabilité.
Pour un avenir plus responsable
Le co-auteur Matthieu Meeus souligne l’importance cruciale des discussions sur la transparence et la compensation équitable des créateurs de contenu. Les travaux sur les trappes à droits d’auteur visent à contribuer à une solution durable, où l’IA est développée de manière responsable.
Tableau récapitulatif : Données fantômes et droits d’auteur
Avantages | Défis |
Permet de détecter l’utilisation non autorisée | Nécessite des ressources d’ingénierie pour demeurer efficace |
Renforce la transparence dans le développement de l’IA | Les développeurs peuvent tenter de créer des techniques pour retirer les trappes |
Pour plus d’informations, consultez l’article publié par Matthieu Meeus et al. sur arXiv, [lien vers l’article].