Quels sont les principaux défis juridiques que rencontrent les auteurs-compositeurs face à l’utilisation de leurs œuvres par des systèmes d'intelligence artificielle (IA) génératives?
Ainsi que l’indiquait la Commission de l’intelligence artificielle (IA) créée par le Gouvernement dans son rapport de mars 2024 : « Comme d’autres technologies avant elle, l’IA s’intègre dans les processus de création pour servir la création humaine. Elle fragilise cependant le secteur car elle constitue un immense défi pour les créateurs, leurs compétences, carrières et rémunérations ». Il est ici principalement question des IA dites « génératives » qui, sur la base de prompts, produisent des textes, des images, des vidéos, des musiques ou autres contenus. En résumé, ces systèmes d’IA génératives (SIAG) ont été construits et fonctionnent sur la base de données (images, textes, etc.), éventuellement protégées par le droit d’auteur, moissonnées de façon automatisée (scraping) sur internet et potentiellement sans l’autorisation des intéressé(e)s.
Cette phase amont de création des datasets et d’entraînement du modèle s’avère potentiellement problématique. La phase avale dite de « l’inférence » (utilisation du modèle pour créer du contenu) l’est potentiellement tout autant, lorsque le SIAG reproduit du contenu protégé ou produit du contenu dérivé, ainsi que le révèle notamment l’action intentée par le New York Times contre Open AI et Microsoft aux États-Unis. C’est dans ce contexte que l’Alliance européenne des compositeurs et auteurs-compositeurs (ECSA) a récemment publié un manifeste destiné à la nouvelle Commission européenne, dans lequel elle appelle à la mise en place de principes de consentement, de transparence et de rémunération des auteurs-compositeurs en cas d’utilisation de leurs œuvres par les fournisseurs de systèmes d’IA. Cette initiative rejoint des considérations juridiques qu’il est intéressant d’aborder, sans pour autant prétendre à l’exhaustivité quant aux moyens d’action à disposition des auteurs-compositeurs face à l’utilisation de leurs œuvres par des SIAG [1].
En effet, le défi juridique premier qui se pose à un auteur-compositeur dont les œuvres seraient utilisées sans son autorisation dans le cadre d’un SIAG est celui de la contrefaçon. À cet égard, le code de la propriété intellectuelle (CPI) prévoit notamment qu’en principe les reproductions et/ou représentations d’œuvres ne peuvent être effectuées sans l’accord de l’auteur. Se pose alors la question de savoir si les différentes opérations effectuées sur les œuvres par les SIAG mobilisent ces actes soumis à autorisation, et si oui, à quel(s) stade(s) : collecte, entraînement, génération de contenu ? En effet, des débats existent, notamment quant à la réalité d’une reproduction (minimisation de l’over-fitting pendant l’apprentissage, hiatus entre la notion de reproduction en droit français et celle prévue en droit européen, parallèle dressé avec le sampling, etc.). En outre, à supposer que les actes « commis » par les SIAG entrent dans le champ du droit d’auteur, intervient l’éventuel jeu des exceptions légales, et notamment celle dites de « text and data mining » (TDM).
Cette exception figure en droit français à l’article L. 122-5.10 du CPI, précisé par l’article 122-5.3., et notamment son point 3 qui prévoit que « des copies ou reproductions numériques d’œuvres auxquelles il a été accédé de manière licite peuvent être réalisées en vue de fouilles de textes et de données menées à bien par toute personne, quelle que soit la finalité de la fouille, sauf si l’auteur s’y est opposé de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne ». L’opposition à la fouille de données, c’est l’opt-out.
Les questions posées par l’opt-out
Cet opt-out pose de nombreuses questions. La première : Comment le mettre en œuvre ? La formulation de l’article du CPI est assez large et on peut renvoyer, sans exhaustivité, à la clause type d’opt-out du SNE ou au guide de l’ADAGP. À noter qu’au mois d’octobre 2023, la Sacem, organisme de gestion collective des auteurs, compositeurs et éditeurs de musique, a décidé d’exercer son opt-out pour les œuvres de son catalogue. La deuxième : Comment lui donner un plein effet ? À cet égard, se posent notamment les questions de la matérialisation de l’opt-out sur toute la chaine, du fait en particulier de la potentielle multiplicité des sources. La troisième : Comment s’assurer de sa prise en compte ? Cet opt-out est-il respecté ? Par tous ? La quatrième : Faut-il, tout simplement, procéder à un opt-out ? Sans volonté d’interdiction peut légitimement apparaître une considération de valorisation des contenus par la négociation d’une licence notamment, en particulier en cas de donnée considérée comme « qualifiée » et qui participe à la valeur du SIAG.
Ces questions ne peuvent trouver de réponses utiles sans exigence de transparence. En effet, assurer la transparence revient à donner les moyens de contrôler les SIAG. En ce sens, la transparence peut constituer la première étape de la compréhension de ces systèmes et donc d’une interaction éclairée et équilibrée pour des rapports de confiance entre les différents acteurs.
À ce titre, le règlement sur l’IA (RIA) qui va rentrer progressivement en application à partir de 2025 impose que les fournisseurs de modèles d’IA à usage général (IA générative), sauf ceux sous licence libre, communiquent des informations sur les données d’entraînement utilisées (art. 53.1.d). Un code de bonnes pratiques relatif aux IA génératives, attendu pour avril/mai 2025, est en cours de discussion dans le cadre du Bureau de l’IA auprès de la Commission européenne. Une première ébauche de ce code a été publiée le 14 novembre dernier et la version finale devra comprendre des précisions sur les modalités pratiques de l’exigence de transparence.
Le RIA consacre également l’exception de TDM et son applicabilité dans le contexte de l’IA générative (art. 53.1.c). Le contrôle de l’exception et l’effectivité de l’opt-out repose ici encore sur la transparence des SIAG, ainsi que l’illustre la récente (et critiquable) décision du Tribunal de Hambourg du 27 septembre 2024 dans laquelle il a été jugé que la reproduction d’une photographie dans un dataset LAION ne serait pas contrefaisante car couverte par l’exception de TDM à des fins scientifiques, bien que ce dataset puisse être in fine utilisé par des sociétés commerciales dans le cadre de SIAG.
Cette décision a toutefois le mérite de rappeler que la problématique de l’utilisation par des SIAG de contenus protégés ne saurait être abordée sous le seul angle du droit d’auteur, notamment sur la phase amont. En effet, appréhendé sous cette unique perspective, le contenu pourrait se retrouver soumis à une exception de TDM aux contours bien incertains et qui empêcherait l’opposition de l’auteur mais aussi, le cas échéant, sa compensation financière. D’autres outils juridiques nous semblent pourtant mobilisables tels que le droit des bases de données, la responsabilité civile délictuelle, et en particulier le parasitisme, mais aussi la responsabilité civile contractuelle, en application notamment de la jurisprudence PR Aviation de la CJUE.
Quel que soit le fondement choisi et le maillon de la chaîne visé (créateur de dataset, fournisseur de SIAG, déployeur, etc.), établir la réalité de l’utilisation demeurera fondamental, preuve que le sujet de la transparence transcende la seule matière du droit d’auteur pour constituer une véritable pierre angulaire de la réglementation de l’IA et du respect des droits des tiers. Aussi, la granularité des résumés détaillés de l’article 53 du RIA apparaît particulièrement importante. Si elle ne constitue pas une assurance pour les créateurs, la transparence permet, dans une certaine mesure et dans certaines circonstances, de rétablir quelque peu l’asymétrie entre les scrapés et les scrapeurs. À bon entendeur…
[1] Le présent billet n’est pas le lieu de considérations relatives à loi applicable qui ne sauraient toutefois, en pratique, être écartées. Pour les besoins de l’exercice, nous raisonnons en droit français/européen.