Dossier AUDIO

Le monde de la création audio en alerte sur l’IA

Publié le 14 octobre 2024

5 min de lecture

Par Garance Bailly

Face à l’évolution rapide de l’intelligence artificielle dans l’audio, en particulier dans les voix de synthèse, les secteurs des médias et de la création publicitaire se positionnent, entre expérimentations, innovations et revendications. Un article également disponible en version audio.

Écoutez cet article :

Pour fêter ses 20 ans, l’agence de communication indépendante R2 a sorti début octobre un objet de collection : un vinyle de vingt titres qui ont, dans leur quasi-totalité, été générés grâce à l’intelligence artificielle. Baptisé Art to remember, cet album, qui évoque vingt souvenirs de l’agence depuis sa création en 2004, est disponible en ligne (à l’adresse 20ans.r2.fr). Ont été mobilisés sur le projet tous les talents mélomanes et volontaires de l’agence, et pas seulement des créatifs, d’après les explications du fondateur et CEO de R2, Richard Rohou. Ce qui impressionne, à la première écoute de l’album, c’est la capacité qu’ont eue les collaborateurs à reproduire une variété de styles musicaux (électro, pop, rap…) grâce aux logiciels d’IA générative. Quant aux voix, elles sont troublantes de réalisme.

La synthèse vocale est aussi expérimentée à l’agence sur d’autres projets. Par exemple, la voix synthétisée de l’acteur américain Forest Whitaker (Le Dernier Roi d’Écosse, Star Wars, Le Majordome…) a été apposée sur les séquences d’un film documentaire, cela afin d’avoir une idée du rendu final avant que l’acteur en question, à l’agenda surchargé, ne passe en studio d’enregistrement. Pour l’auditeur, c’est à s’y méprendre : la voix est non seulement réaliste, bien que monotone, mais aussi très ressemblante à celle de Forest Whitaker. Les voix de synthèse semblent ainsi de plus en plus utilisées par les agences de communication dans leur processus de création avec des logiciels comme Elevenlabs.io, Murf.ai ou encore Heygen.ai pour la traduction.

Du côté des acteurs de l’audio digital, on fait part de projets sur mesure qui ont su conquérir le public. Dalida a ainsi été ressuscitée en 2022 par l’Ircam Amplify (société privée qui trouve des applications commerciales aux recherches sur l’acoustique et la musique de l’Ircam) à l’occasion de l’émission L’Hôtel du Temps de Thierry Ardisson. Un voice cloning spectaculaire qui a été suivi par un autre projet d’ampleur : la recréation du véritable appel du 18 juin par Charles de Gaulle (l’extrait sonore que tout le monde connaît est un autre enregistrement, daté du 22 juin), avec l’aide du comédien François Morel pour l’intonation (l’empreinte sur laquelle est ensuite apposé le masque de la voix du général). Du côté d’ETX Majelan, acteur de l’audio digital, en particulier du text-to-speech, on révèle avoir synthétisé la voix du journaliste Bruno Jeudy, directeur délégué de La Tribune Dimanche.

« Sur la partie audio, cela fait environ 18 mois que l’on travaille avec l’intelligence artificielle générative », relate pour sa part Alexandre Crazover, cofondateur du groupe international Datawords, présent dans 22 pays, qui accompagne les grandes marques (Procter & Gamble, L’Oréal, Groupe Seb…) dans « l’adaptation d’assets dans plus de 160 cultures » à travers le monde. L’IA y est principalement exploitée sur la partie traduction afin d’adapter localement « le bon message publicitaire avec les bons codes culturels », expose-t-il, autant sur la sémantique que sur les accents régionaux. Derrière, il y a toujours une vérification humaine, pour éviter « les biais et les pertes inhérents à l’IA », livre-t-il.

L’IA est « une caisse de résonance des dominations linguistiques sur le numérique », relève quant à lui Nicolas Obin, chercheur à l’Ircam et maître de conférences à Sorbonne Université. Pour ETX Majelan, la traduction est un grand chantier lancé depuis quelques mois. « Nous souhaitons pouvoir proposer à nos clients leurs contenus dans différentes langues. Aujourd’hui, l’axe principal est évidemment l’anglais mais il y aura aussi des langues européennes, notamment l’allemand, pour répondre aux besoins de nos clients », informe Lucas Alvarez, ancien journaliste radio devenu chef du projet Voxa au sein d’ETX Majelan. L’entreprise poursuit également le perfectionnement de ses voix de synthèse : un catalogue de voix clonées (les voix des salariés d’ETX Majelan qui ont signé un contrat spécifique pour cela) devrait voir le jour à la fin du mois d’octobre.

Pillage de données

Concernant plus précisément les voix de synthèse, « elles peuvent nous servir dans la phase de prototypage », concède Alexandre Crazover, dans le but de gagner en efficacité et d’abaisser les coûts. Il arrive aussi que la synthèse vocale soit utilisée au sein de Datawords sur des projets de communication interne, pour des podcasts ou des webinaires, par exemple. Pour autant, « les voix ne viennent pas de nulle part », signale Alexandre Crazover, et l’agence ne souhaite pas encourir de risque juridique avec des providers dont les sources seraient méconnues. Car, pour s’entraîner, les intelligences artificielles ont besoin d’une grande quantité de données, « entre 50 et 100 mille heures d’enregistrements », d’après Nicolas Obin.

Des voix - et pas n’importe lesquelles - s’élèvent pour dénoncer le pillage des intelligences artificielles génératives. « L’IA donne le sentiment que les voix appartiennent au domaine public alors que ce n’est pas le cas », s’agace Patrick Kuban, membre fondateur et porte-parole de l’association professionnelle LesVoix, également coprésident de la coalition mondiale United Voice Artists (UVA). « Des start-up collectent des fonds pour continuer à se développer sur le vol de nos voix », s’indigne l’artiste-interprète. « Nos voix sont des données personnelles biométriques », argue-t-il. À ce propos, une affaire d’usurpation a été fortement médiatisée en mai : Scarlett Johansson (qui a notamment joué la voix de l’intelligence artificielle dans le film Her de Spike Jonze en 2013) a accusé OpenAI d’avoir copié son identité vocale pour créer la voix de son agent conversationnel Sky, dans ChatGPT. La voix a, depuis, été retirée par le géant américain.

L’affaire a des échos en France. Le Monde rapporte une crispation au sein du pure-player Loopsider qui a eu lieu en juillet. Il a été demandé aux journalistes du média des échantillons de leurs voix pour une expérimentation. Ces derniers ont ensuite découvert que leurs voix avaient été utilisées dans des vidéos. Autre cas : une agence de publicité aurait été épinglée par LesVoix pour une utilisation frauduleuse, d’après Patrick Kuban. Le cas aurait été réglé l’amiable, après un échange de mails. Car utiliser une voix synthétisée sans consentement explicite peut constituer une violation du Règlement général sur la protection des données (RGPD). « La marque risque une sanction financière de la part de la Cnil, jusqu’à 4 % de son chiffre d’affaires », informe Patrick Kuban. Pour sensibiliser les acteurs de la publicité au sujet, LesVoix a rejoint La Filière Communication en 2023.

Voix sous licence

« À l’issue de la grève d’Hollywood, les acteurs américains ont reçu des garanties sur l’utilisation de l’IA mais ils n’ont pas pensé à nous », se désole Patrick Kuban. Depuis janvier, LesVoix se mobilise avec la pétition « #TouchePasMaVF ». Celle-ci vise à défendre le travail des artistes pour le doublage des versions françaises. La pétition a été massivement relayée en mai à la suite d’une publication vidéo sur Instagram qui a enregistré 15 millions de vues. La pétition comptabilise actuellement 153 000 signatures. Néanmoins, les artistes-interprètes ne se disent pas réfractaires à l’IA pour peu que son utilisation soit éthique. « On pourrait imaginer une voix sous licence : cela ne poserait pas de problème si je suis rémunéré, que je sais où et comment est utilisée ma voix et si j’ai la capacité de récupérer mes données », résume Patrick Kuban qui est, entre autres, la voix-off des bandes-annonces Canal+.

En attendant la pleine entrée en vigueur de l’AI Act, le règlement européen sur l’intelligence artificielle, LesVoix propose aux artistes-interprètes de signer un droit d’opposition à l’utilisation de leur voix. À contre-courant, dans le monde de la musique, une artiste canadienne se montre extrêmement enthousiaste à l’idée que sa voix puisse être utilisée. Il s’agit de la chanteuse Grimes (ex-compagne d’Elon Musk) qui, en avril 2023, a annoncé donner la permission à ses fans d’utiliser sa voix pour composer de la musique. « Je partagerai 50 % des royalties sur toute chanson générée avec l’IA qui utilise ma voix. De la même manière que je le ferais avec n’importe quel artiste avec lequel je collabore. N’hésitez pas à utiliser ma voix sans pénalité. Je n’ai pas de label et aucune obligation légale », a-t-elle tweeté.

Une position que ne partagent certainement pas les majors du disque et les acteurs du streaming. « Spotify a récemment fait les frais d’une fraude à l’intelligence artificielle », rapporte Nathalie Birocheau, directrice générale d’Ircam Amplify. Selon un article de Music Business World, daté du 19 septembre, un Américain a créé des centaines de milliers de chansons avec l’IA, les a mises en ligne sur Spotify, puis a utilisé des bots pour générer des écoutes. L’individu aurait ainsi reçu plus de 10 millions de dollars de redevances entre 2017 et 2024. Pour sa part, l’Ircam Amplify a anticipé ce risque et a développé des outils payants de détection de l’IA, que ce soit pour la musique ou le vocal. Quant aux deepfakes pouvant mener à la désinformation, Nathalie Birocheau en est convaincue : « Il faut que le citoyen soit protégé et qu’il ait le moyen de savoir si la voix a été conçue avec l’IA ».