TRIBUNE

«Quand l’IA reproduit la voix, écoutons le droit», Jean-Baptiste Leca (avocat)

Publié le 7 juin 2024

3 min de lecture

Par Jean-Baptiste Leca, avocat à la Cour et docteur en droit

Jean-Baptiste Leca, avocat à la Cour et docteur en droit.

Alors que Scarlett Johansson a accusé OpenAI de copier sa voix pour ChatGPT, il est temps de poser un regard juridique et pragmatique sur le clonage vocal à l’aune de l’AI Act européen que vient d'adopter le Conseil européen.

Dans le film d’anticipation Her, sorti en 2013, Scarlett Johansson prêtait sa voix à une IA dont tombait amoureux l’un des utilisateurs. Onze ans plus tard, les rôles s’inversent alors que naît l’agent conversationnel de ChatGPT Sky, dont le ton et les inflexions évoquent la voix de la star américaine. C’est aujourd’hui incontestable : du doublage multilingue automatisé, qui a récemment provoqué une levée de boucliers sous le slogan «Touche pas à ma VF» à l’émergence d’une nouvelle génération d’agents conversationnels, jusqu’à la reproduction de l’identité vocale de personnalités, l’IA générative donne désormais de la voix.

Derrière ces applications, un système : celui de la reconnaissance vocale, qui ne cesse de se perfectionner depuis 70 ans. A la fin du XVIIIe déjà, le scientifique Christian Kratzenstein concevait un mécanisme vibratoire capable de reproduire le son de voyelles à l’aide de tubes de résonnance reliés à des tuyaux d’orgue. Mais c’est en 1952, sous l’impulsion des laboratoires Bell, qu’est né ce qui est considéré comme le premier système de reconnaissance vocal. Il s’appelle alors Audrey et peut reconnaître des chiffres isolés prononcés par son inventeur. Le passage de la reconnaissance de mots à la reconnaissance de phrases interviendra finalement dans les années 1970.

Et puis les choses s’accélèrent avec l’intégration de modèles statistiques, de méthodes d’entraînement et d’apprentissage automatique ainsi que la mise en œuvre d’algorithmes au sein de systèmes embarqués, permettant une réduction significative des délais de traitement.

Sur le plan du droit, la voix est un objet difficile à saisir. Elle peut, tout d’abord, transmettre des informations intimes issues de la sphère privée. A ce titre, le code pénal réprime la captation des paroles prononcées à titre privé ou confidentiel, et le code civil, toute atteinte à l’intimité de la vie privée. La liberté de pensée, de conscience et de religion fonde également, sur le plan européen, un droit à la vie privée et à la parole privée.

La voix peut également être le support d’une œuvre artistique car toute œuvre orale, telle qu’une allocution, est protégeable par le droit d’auteur à condition d’être originale. Ces solutions ne sont toutefois pas ici pleinement transposables. Car le différend résulte de la reproduction d’une identité vocale en tant que telle, plutôt que celles d’informations ou d’œuvres originales dont la voix servirait de support. On pense alors au droit de l’artiste interprète. La Cour de cassation a ainsi pu se pencher sur la reprise, dans des bandes sonores, de dialogues extraits des films Marius et Fanny. L’actrice Orane Demazis n’invoquait alors pas de droit sur les paroles, celles-ci étant tirées de l’œuvre de Pagnol, mais sur son interprétation et, par ricochet, sur sa voix.

Identifier des œuvres préexistantes

Mais pour être actionné, un tel droit implique d’identifier une ou plusieurs œuvres préexistantes, ce qui est en pratique délicat une fois que les extraits d’origine ont été morcelés et recomposés entre eux. D’autant que ces extraits sonores, qui peuvent être courts et anecdotiques, ne porteront pas tous l’empreinte de la personnalité de leur auteur. En retournant le problème et en l’envisageant non plus sous le prisme de la voix reproduite mais du travail de recomposition reproché, on peut songer au délit d’atteinte à la représentation d’une personne. Il est vrai que cette infraction sanctionne tous montage audio réalisé avec les paroles d’autrui. Mais c’est à la condition que le montage en cause paraisse authentique. Or, quelle authenticité peut dégager un agent conversationnel dont le modèle économique repose précisément sur l’artifice ? De fait, on conçoit difficilement que les utilisateurs de ChatGPT puissent en réalité croire dialoguer avec Scarlett Johansson.

Est-ce à dire que le droit est muet ? Certainement pas. La voix est, selon nos juges, un attribut de la personnalité. Loin de n’être qu’un simple support, elle constitue une véritable «image sonore». Mais il faut, pour être protégée, que la voix puisse être rattachée à une personne identifiable. Car derrière la voix, c’est la personnalité qui la porte qui est défendue. A cela, OpenAI répond dans son communiqué que la voix de Sky serait celle d’une autre actrice qui aurait accepté de se soumettre à des sessions d’enregistrement. Cette défense conduit à déplacer le débat sur un autre terrain, bien connu du droit. Celui de l’imitation et des sosies, que les juges condamnent dès lors qu'il existe un risque de confusion.

On se souvient de l’affaire Piéplu, à propos de l’imitation de la voix du comédien, connu comme «la voix des Shadoks», pour un spot publicitaire. Le tribunal avait noté que la diction, le débit, le ton et les inflexions de voix en cause évoquaient les particularités verbales du comédien. En conséquence, «les téléspectateurs ont pu croire qu'il vantait les qualités d'un produit industriel alors qu'en réalité il n'avait point prêté son concours à cette publicité». Dans la même logique, il pourrait être soutenu que la voix de Sky laisse croire que Scarlett Johansson cautionnerait les services d’OpenAI, faisant rejaillir sa propre notoriété sur l’entreprise.

Valeur économique individualisée

Par ailleurs, la voix de Scarlett Johansson peut également être perçue comme une valeur économique individualisée, fruit d’efforts et d’investissements pour bâtir une «image sonore» bien identifiable. Et pour cause, l'actrice prête régulièrement sa voix à des personnages de film. On pense au film Her mais aussi à l’adaptation en live action du Livre de la Jungle par les studios Disney, où Scarlett Johansson interprétait le serpent Kaa.

Reste une difficulté : l’appréciation de la similitude entre deux voix est délicate et éminemment subjective. Comment alors prouver, objectivement, qu’une voix générée par l’IA constitue le clone d’une autre, humaine ? Le moyen le plus sûr serait d’accéder aux données d’entraînement. Mais ces informations relèvent de secrets d’affaires protégés. Le règlement sur l’IA, adopté par le Conseil européen le 21 mai dernier pourrait permettre de surmonter cet obstacle, par le biais des obligations de transparence qu’il prévoit vis-à-vis des données d’entraînement. Alors qu’outre-Atlantique les premiers litiges voient le jour – on pense notamment au procès opposant Linnea Sage et Paul Skye Lehrmab à Lovo au sujet du clonage de leurs voix par un chatbot –, l’Union européenne fourbit ses armes avec une règlementation pionnière en matière d’IA.

«Quand l’IA reproduit la voix, écoutons le droit», Jean-Baptiste Leca (avocat)

Titre Newsletters

Sous-titre L'essentiel de l'actualité Stratégies

Les articles liés

Titre Newsletters

Sous-titre L'essentiel de l'actualité Stratégies