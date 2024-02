OpenAI, le créateur de ChatGPT, vient de dévoiler un nouveau modèle vidéo génératif remarquable, appelé Sora, qui peut prendre une courte description textuelle et la transformer en un clip vidéo détaillé. Voici ce que l’on sait à son sujet.

Alors que Google vient d’annoncer sa nouvelle IA Gemini 1.5, OpenAI a immédiatement contre-attaqué avec Sora, son premier outil capable de transformer un texte en une vidéo d'une durée maximale d'une minute. Sora n'est pas une simple application de plus dans la boîte à outils numérique, mais semble bien être un symbole de ce que l'avenir réserve aux créateurs et au public.

En effet, nous sommes ici bien loin des résultats proposés par Runway AI, une autre technologie qui était capable de générer des vidéos de quelques secondes assez floues, hachées, déformées et parfois franchement dérangeantes.

Qu’est-ce que Sora, la nouvelle IA révolutionnaire d’OpenAI ?

OpenAI a baptisé son nouveau système Sora, d'après le mot japonais signifiant « ciel ». L'équipe à l'origine de la technologie, dont les chercheurs Tim Brooks et Bill Peebles, aurait choisi ce nom parce qu'il « évoque l'idée d'un potentiel créatif illimité ».

OpenAI a partagé quelques clips vidéo générés par sa nouvelle intelligence artificielle, et les résultats sont pour le moins spectaculaires. Sur l’un d’entre eux, on peut lire la requête suivante : « La belle ville enneigée de Tokyo est en pleine effervescence. La caméra se déplace dans la rue animée de la ville, suivant plusieurs personnes qui profitent du beau temps enneigé et font leurs achats dans les échoppes voisines. De magnifiques pétales de sakura volent dans le vent en même temps que les flocons de neige ». Comme demandé, la vidéo générée se déroule dans une rue à Tokyo, et montre bien que Sora a appris comment les objets s'assemblent en 3D. La caméra plonge alors dans la scène pour suivre un couple qui passe devant une rangée de magasins.

Les vidéos de l’outil d’OpenAI sont bien plus convaincantes que ce que proposent les autres outils existants, même si l’on remarque tout de même parfois quelques petits défauts. Sur l’une d’entre elles, où l’on voit une femme marcher dans la rue, on remarque par exemple sur quelques images que ses jambes ne suivent pas correctement le mouvement.

Lire également – OpenAI veut véritablement tuer Google avec ce nouveau moteur de recherche en développement

Sora n’est pas encore disponible pour tous

Pour l’instant, Sora n’en est encore qu’au stade de développement, et n’est donc pas disponible pour le grand public. OpenAI a cependant déjà partagé l’outil à certains universitaires et autres chercheurs qui la soumettront à une « équipe rouge ». Il s’agit d’un petit groupe de personne qui est chargé de rechercher tous les moyens de l’utiliser à mauvais escient, dans le but de comprendre les dangers que représente une telle technologie.

Ce qui est sûr, c’est qu’OpenAI devra trouver un moyen de s’assurer que ses vidéos ne sont pas utilisées à des fins de désinformation, car on imagine que certains pourraient s’en donner à cœur joie pour créer de fausses vidéos pouvant amener à des polémiques. Au début du mois, OpenAI a annoncé l'ajout de filigranes à son outil de conversion de texte en image DALL-E 3, mais précise qu'ils peuvent “être facilement supprimés”. On espère donc que l’entreprise travaille sur une nouvelle façon de s’assurer que ses fausses vidéos sont facilement identifiables.

OpenAI offre également un accès à certains artistes visuels, concepteurs et cinéastes afin de recueillir leurs commentaires. Elle note que le modèle existant peut ne pas simuler avec précision la physique d'une scène complexe et ne pas interpréter correctement certains cas de cause à effet, c’est pourquoi la technologie a encore besoin de murir avant d’être disponible plus largement.