Après l’image et le texte, l’intelligence artificielle générative se développe dans la vidéo, avec la promesse d’atteindre le standard de qualité de la production traditionnelle d’ici la fin de l’année.
En ce début d’année 2024, les salariés du groupe ADP ont reçu une drôle de carte de vœux dans leur boîte mail. Sur l’écran de leur ordinateur, Pierre de Coubertin, filmé face caméra depuis le tarmac de l’aéroport Charles-de-Gaulle. Plus de 86 ans après sa mort, le baron à qui l’on doit la création des Jeux olympiques modernes adresse ses vœux aux salariés du groupe aéroportuaire à quelques mois de Paris 2024, dont ADP est partenaire officiel. Les salariés du groupe Publicis ont, eux, reçu une vidéo personnalisée en fonction dans leurs centres d’intérêt, dans laquelle ils pouvaient par exemple voir Maurice Lévy faire du wakeboard, et Arthur Sadoun les remercier nommément pour leur implication dans le groupe qu’il dirige.
Il faudrait avoir vécu dans une grotte ces deux dernières années pour ne pas reconnaître derrière ces deux exemples la patte de l’intelligence artificielle générative. Après s’être imposée dans la création d’images et de textes, portée par des outils comme Midjourney et ChatGPT, la GenAI, comme on l’appelle de l’autre côté de l’Atlantique, gagne aujourd’hui la vidéo. « Après Runway (dont je suis creative partner), qui a ouvert le bal au premier trimestre 2023, on a assisté à une explosion d’outils d’IA générative vidéo au quatrième trimestre, et le début 2024 continue de plus belle », note David Raichman, executive creative director chez Ogilvy Paris.
Outre Runway ML, Pika Labs, Stable Video Diffusion ou encore Leonardo AI permettent déjà de créer de toute pièce, grâce à l’IA, des vidéos réalistes de quelques secondes. Le marché pourrait encore changer d’échelle avec l’arrivée de Midjourney sur la génération vidéo ou encore le nouvel outil que vient de dévoiler OpenAI, Sora, encore en phase expérimentale.
« Aujourd’hui, nous n’en sommes pas encore à produire un film TV ou même une campagne digitale, contextualise Leïla Achour, directrice new business d’Artefact 3000, l’agence derrière la carte de vœux d’ADP. À court terme, on s’oriente davantage vers une utilisation en social media ou pour des vidéos à la performance, qui pourront intégrer des choses qui n’étaient pas possibles jusque-là en termes de budget, comme un tournage à l’étranger. »
Le réalisateur publicitaire Gilles Guerraz, dont la newsletter dédiée à la GenAI, Generative, compte 1 600 abonnés, a par exemple produit pour Decathlon une vidéo de communication interne avec l’IA. « On constate une progression très rapide de l’IA générative vidéo : en moins d’un an, on est passé de 8 à 24 images par seconde, ce qui correspond au même niveau de cadence qu’un tournage, même si le rendu est encore aléatoire », observe-t-il. Pour trois minutes de vidéo produite, « il a fallu 25 à 30 itérations pour en obtenir une acceptable ». Mais le gain de temps est indéniable : une semaine au total contre au moins trois semaines de tournage, selon lui.
Moins d'impact environnemental
« L’IA apporte de la productivité, une baisse des coûts de production, la possibilité d’avoir des choses qui ne seraient pas possibles en prise de vue réelle, mais aussi un gain en termes d’impact écologique », résume le réalisateur. « L’IA générative vidéo va être avant tout utilisée par les créatifs pour faire plus de volume, moins cher, dans un contexte où les marques ont besoin de toujours plus d’assets dans leurs campagnes. Pour le haut du funnel [des campagnes de branding], ce sera beaucoup plus lent ; les marques sont davantage frileuses que les créatifs dans leur travail quotidien pour des questions juridiques », renchérit Leïla Achour chez Artefact 3000.
Autre frein, la qualité du résultat. « C’est encore compliqué d’avoir un rendu très bon. Tant qu’on voit la différence avec une vidéo réellement tournée, on ne peut pas l’utiliser pour nos clients, mais ça avance très vite. Nous allons atteindre le même niveau de standard d’exigence que la production et la postproduction d’ici la fin de l’année », prédit David Raichman, chez Ogilvy.
En attendant, les expérimentations se multiplient, comme pour la vidéo des vœux du groupe ADP. Pour la créer, Artefact a multiplié les outils : Midjourney pour recréer l’image de Pierre de Coubertin, ChatGPT pour imaginer son discours de vœux aux salariés d’ADP, VoiceMyAi pour recréer sa voix à partir d’un enregistrement audio vieux de plusieurs décennies, D-iD pour réunir son image et sa voix dans un avatar virtuel, RunwayML pour le faire bouger et enfin TensorPics pour améliorer le rendu et en faire une vidéo HD. « On est encore dans une création étape par étape, comme pour un deepfake », souligne Leïla Achour.
« La majorité des vidéos sont actuellement créées à partir de visuels générés dans Midjourney puis animés en vidéo. C’est comme ça qu’on a le rendu le plus qualitatif. Mais l’avenir est dans le prompt to vidéo », esquisse Gilles Guerraz. « En plus de la qualité, l’enjeu de 2024 sera de réussir à intégrer les différentes étapes par lesquelles on passe dans un outil unique au service du réalisme », renchérit la directrice new business d’Artefact 3000.
Au-delà du secteur de la publicité, l’arrivée d’outils grand public comme Sora d'OpenAI ou encore Google Lumière, dévoilé par les équipes de recherche du géant américain fin janvier, pourrait encore accélérer la génération de vidéos par IA, pour le meilleur et pour le pire. La campagne présidentielle américaine en novembre prochain pourrait servir de crash test grandeur nature. « C’est la première élection américaine à l’époque de la GenAI. On a un outil très puissant entre les mains de milliards de personnes, c’est là qu’est le plus grand danger », selon David Raichman.
L’entrepreneur Michel Lévy-Provençal ne minimise pas les risques, qu’ils soient sociaux ou politiques, mais il reste optimiste. « Nous sommes déjà dans un environnement de désinformation massive, assure le cofondateur de l’agence Brightness. Mais à force d’être exposés à toujours plus de faux contenus, notamment vidéo, je suis convaincu que nous allons construire un système immunitaire informationnel et développer notre discernement. » Pour que l’intelligence artificielle n’outrepasse jamais celle des citoyens.