Chaque semaine, des dizaines de nouvelles applications d’intelligence artificielle bousculent le marché de l’image, de la vidéo et du texte. Plus simples et plus intuitives, elles génèrent des gains de temps inédits. Sélection de quelques-unes de ces technologies. Un article également disponible en version audio.
Écoutez cet article :
- DragGan, l’anti-Photoshop
Google vient de présenter le fruit de son travail entrepris avec les chercheurs de l’université de Pennsylvanie, du Saarbrücken Research Center for Visual et de l’Institut Max Planck. Et Photoshop peut trembler… Concrètement, ce nouvel outil, DragGan, promet de révolutionner la retouche photo grâce à une utilisation beaucoup plus intuitive que Photoshop, mais avec le même degré de précision. Grâce à cette technologie, la retouche photo devient donc accessible au plus grand nombre sans besoin de formation ni de connaissances techniques approfondies. Il suffit de cibler le point à retoucher et de le faire glisser pour atteindre d’autres positions cibles. Ces manipulations permettent de modifier la pose, la forme, l’expression de n’importe quel sujet choisi (humain, objet, animal…) en quelques clics. Et DragGan va jusqu’à créer en temps réel du contenu qui n’existe pas originellement pour combler les déformations générées par la distorsion de l’image. Révolutionnaire et enfantin à la fois.
- Feelin, la traductrice des ressentis publicitaires
Après avoir fait ses classes dans les instituts d’études, Feelin veut offrir à la publicité l’appréhension des ressentis du consommateur. Le principe : la campagne est envoyée à des panels ad hoc pour être visionnée en conditions réelles sur appli, et analyser deux réactions physiologiques spécifiques. D’abord, le parcours des yeux, pour comprendre ce que le consommateur a regardé et dans quel ordre. Ensuite, la pupillométrie et la variation de son degré de dilatation. Des courbes émotionnelles sont alors générées en live, pour être ensuite complétées par un jeu de données déclaratives. Pour Chloé Chaniot, creative director de 87seconds, l’apport est tel que cette solution est utilisée pour deux tiers des campagnes au sein de l’agence de création et de production : « Nous sommes enfin capables de déceler des ressentis que le conscient n’exprime pas, et répondre ainsi à un bon nombre de questions. Y a-t-il trop d’informations ? Avons-nous une bonne courbe de rétention ? Sur quelles intentions laisse-t-on le consommateur à la fin ? Ces émotions travaillent-elles la mémorabilité ? » L’experte l’utilise donc régulièrement en amont, pour valider les directions créatives, mais aussi dans la phase de production, pour finaliser le craft.
- Les combos technos maison d’Ogilvy Paris
David Raichman, executive creative director d’Ogilvy Paris, en est convaincu : « La plus grande force de l’IA aujourd’hui réside dans la création des combinaisons pour répondre à un besoin spécifique. » Dans cet esprit, AI Lab, le laboratoire de R&D de l’agence, a réalisé il y a quelques semaines un nouvel assemblage capable de dupliquer les contenus de l’influence à l’international. Ainsi, pour permettre aux créateurs de parler toutes les langues sans sous-titre et avec leur voix d’origine, cinq IA différentes ont été assemblées autour de la story d’une influenceuse allemande. L’agence est partie de Whisper, outil de reconnaissance automatique de la parole, ChatGPT a ensuite traduit le texte de l’allemand à l’anglais, version qui a été communiquée à un logiciel text-to-voice pour le remettre en « voix ». La séquence a enfin été entraînée par un logiciel de clonage de voix pour reproduire celle de l’influenceuse. Un dernier travail de lip thinking a apporté la touche finale pour octroyer un naturel parfait à la synchronisation voix-visage. Et bonne nouvelle pour ceux qui n’ont pas de R&D en interne : Google vient d’annoncer sa volonté d’industrialiser une solution similaire.
- Runway, le futur de la création vidéo
Après l’essor rapide des solutions de génération d’image et l’ascension fulgurante de ChatGPT, le text-to-video incarnera probablement la prochaine vague technologique de l’IA. Et la start-up Runway, fondée en 2018, tient pour l’instant la tête du peloton. Preuve en est, c’est elle qui a été choisie pour réaliser certaines scènes du film oscarisé Everything Everywhere All at Once. Le logiciel rationalise ainsi, avec une fluidité nouvelle, l’ensemble du processus de montage vidéo depuis un simple navigateur, permettant de créer ou transformer n’importe quel film. Masquage, générations d’effets visuels, suppression d’objets, changement de formes ou de couleurs, changement de perspectives : en partant de l’image ou par simple demande texte, l’outil embarque plusieurs dizaines de fonctionnalités. La nouvelle version promet une plus grande flexibilité, ainsi qu’une meilleure résolution, avec la possibilité de créer des séquences de plusieurs dizaines de secondes. Objectif à terme : transformer ses idées en vidéos réalistes sans avoir besoin d’équipement ou de compétences techniques, en tapant simplement un texte.
- Skybox Labs, l’IA de création des univers virtuels
À l’heure des premiers pas dans le métavers, ce logiciel en accès libre depuis un simple navigateur et sans création de compte permet de générer des prototypes de mondes virtuels et panoramas vidéo en 3D de belle facture. L’exercice pour créer un panorama prend entre 30 et 40 secondes, à partir d’un simple prompt, ou phrase descriptive, de 360 caractères. Paysage fantastique, style surréaliste, peinture numérique, onirique, vues intérieures… Plusieurs pistes de départ à personnaliser sont proposées. La création vidéo peut ensuite être téléchargée et transmise. Les séquences peuvent aussi être intégrées de manière transparente dans des expériences VR, des jeux vidéo et d’autres médias visuels. Fait remarquable et commun à ce type de nouvelles applications d’intelligence artificielle : la plateforme reste ouverte à toute personne, même sans connaissance en programmation informatique.