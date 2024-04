Microsoft dévoile une intelligence artificielle capable d'animer des photos et de les faire parler de façon ultraréaliste. C'est saisissant, même si on peut quand même repérer quelques bizarreries.



On a beau dire que l'intelligence artificielle pourra bientôt remplacer les humains, elle a encore du chemin à parcourir sur un point : recréer les expressions humaines sans tomber dans la vallée de l'étrange. Ce concept disant que plus une machine ressemble à un humain, plus ses défauts nous dérangent. Ça n'empêche pas la création de deepfakes parfois suffisamment réalistes pour arnaquer un employé lors d'une fausse visioconférence.

Les avancées dans ce domaine sont pourtant bien là. On pense aux présentateurs de JT entièrement artificiels, mais presque impossible à distinguer d'un vrai journaliste par exemple. Une équipe de Microsoft va plus loin puisqu'elle dévoile VASA-1, une IA capable d'animer des photos de visages et de les faire parler de manière ultraréaliste. Sur les nombreuses vidéos disponibles en exemple, on note en effet une synchronisation labiale parfaite et des expressions faciales bluffantes. Même les inspirations sont reproduites à la perfection.

Une nouvelle IA de Microsoft anime des portraits et les fait parler

Au final, ce sont surtout les mouvements de tête qui trahissent le côté artificiel de la chose. Ils donnent l'impression que la caméra utilise un stabilisateur d'images et que les personnes sont en réalité en train de bouger rapidement. Cela se voit encore plus si le sujet a les cheveux longs. Certaines émotions comme la joie ne sont pas tout à fait au point également. On dirait plus que l'homme vient de consommer une substance illicite qui l'a détendu.

Pour le reste, c'est impressionnant. VASA fonctionne aussi avec des langues étrangères et peut animer des illustrations ou des peintures. Vous pouvez voir la Joconde se lancer dans un rap, ça vaut le détour.

Les équipes restent conscientes que leur outil pourrait être détourné. “Il n’est pas destiné à créer du contenu utilisé pour induire en erreur ou tromper. Cependant, comme d’autres techniques de génération de contenu similaires, elle pourrait être utilisée à mauvais escient pour usurper l’identité d’êtres humains“.

Pour cette raison, les chercheurs préviennent qu'ils n'ont “pas l'intention de publier une démo en ligne, une API, un produit, des détails de mise en œuvre supplémentaires ou toute offre connexe tant [qu'ils] ne [sont] pas certains que la technologie sera utilisée de manière responsable et conformément aux réglementations appropriées“.