Pris de court dans la course à l'IA face à ChatGPT ou encore Midjourney et Dall-E, Google a mis les bouchées doubles pour rattraper son retard dans cette compétition acharnée. Après la présentation impressionnante de Gemini, la firme de Mountain View vient de dévoiler Lumière, une IA de génération de vidéos absolument ahurissante.

Dans la course à l'intelligence artificielle que mènent actuellement les géants de la Tech, Google est parti avec un certain train de retard. Disons que la firme de Mountain View n'a pas vraiment vu venir le phénomène ChatGPT, suivi de l'explosion des outils grand public basés sur l'IA comme Dall-E ou encore Midjourney.

Qu'à cela ne tienne, la filiale d'Alphabet a mis les bouchées doubles pour revenir dans le jeu, tout d'abord avec Bard, son IA conversationnelle. Mais en décembre 2023, Google a frappé fort en présentant Gemini, une toute nouvelle intelligente artificielle nettement plus performante que sa principale concurrente : ChatGPT. Précisons que Gemini est d'ores et déjà intégré dans le Pixel 8 Pro, aux Etats-Unis du moins. En Europe, le RGPD a ralenti le processus.

Google présente Lumière, son IA de génération vidéo absolument ahurissante

Mais Google ne compte pas s'arrêter là, bien au contraire. En effet, le géant du web vient tout juste de dévoiler Lumière, une IA dédiée à la génération de vidéos. Une tâche bien plus ardue et complexe que la génération d'images. Pour cause, pour générer une vidéo de toute pièce, une IA doit prendre de multiples facteurs en compte comme le mouvement ou d'éventuelles interactions avec le décor (collisions, terrains difficiles, etc.).

Il faut également aboutir à une séquence relativement fluide, où les actions s'enchaînent avec cohérence. Pour ce faire, et plutôt que d'assembler une succession d'images comme dans un dessin animé, Lumière créé la vidéo de A à Z grâce à une gestion simultanée des objets et de leur mouvement. “L'architecture Space-Time U-Net génère toute la durée temporelle de la vidéo en une seule fois, par le biais d'un seul passage dans le modèle. Cela contraste avec les modèles vidéo existants qui synthétisent des images clés distantes suivies d'une super-résolution temporelle, une approche qui rend intrinsèquement difficile la cohérence temporelle globale”, expliquent les chercheurs à l'origine du projet.

Pour nous donner une idée des capacités de Lumière, la scientifique Hila Chefer a partagé quelques extraits et démonstrations sur X. Concrètement, Lumière peut générer des vidéos de 5 secondes environ en définition 1024 x 1024 pixels. Pour ce faire, elle peut soit se baser sur des lignes de commandes textuelles, mais aussi depuis une image. Elle peut d'ailleurs animer certains parties d'images fixe (comme la fumée d'une locomotive par exemple comme on peut le voir dans la vidéo ci-dessus). Quoiqu'il en soit, le potentiel est là et les résultats sont d'ores et déjà impressionnants. Pour l'heure, Lumière reste à l'état de projet, et Google n'a pas encore dévoilé ses plans à son sujet.