Google présente Veo 3.1, une IA qui est enfin capable de garder les mêmes personnages d’une scène à l’autre
Quelques mois après avoir révolutionné la création vidéo avec l’IA Veo 3, Google revient déjà avec une version encore plus avancée. Le nouveau modèle Veo 3.1 promet des vidéos plus longues, des personnages mieux conservés entre les scènes et un son plus naturel.
Depuis le début de l’année, la création vidéo assistée par IA a connu une accélération impressionnante. Les modèles capables de transformer un simple texte en séquence animée ne cessent d’évoluer, rendant la frontière entre fiction et réalité toujours plus mince. Après Sora d’OpenAI, c’est Google qui s’est imposé avec Veo 3, un outil présenté comme une véritable révolution dans la génération de vidéos et de sons.
Aujourd’hui, Google dévoile Veo 3.1 et sa déclinaison Veo 3.1 Fast, deux versions améliorées de son générateur vidéo. Ce modèle est désormais capable de produire un audio plus réaliste, incluant des dialogues naturels et des effets sonores synchronisés. L'entreprise a également perfectionné la compréhension des styles cinématographiques, pour un rendu plus fluide et cohérent d’une scène à l’autre. Les personnages conservent désormais leur apparence tout au long des vidéos, un point essentiel pour la continuité narrative.
L'IA Veo 3.1 permet de prolonger les scènes et de relier plusieurs clips sans rupture
L’une des principales nouveautés de Veo 3.1 est la fonction de prolongation de scène. Les développeurs peuvent maintenant créer des vidéos plus longues en générant automatiquement une séquence à partir de la dernière image du clip précédent. Jusque-là, Veo 3 était limité à des vidéos de 30 secondes, ce qui rendait difficile la création d’un film continu. Google a également ajouté la possibilité de fournir jusqu’à trois images de référence pour conserver la cohérence d’un personnage ou d’un décor sur plusieurs plans. Une amélioration qui rapproche Veo des outils professionnels de montage.
Veo 3.1 peut aussi générer une transition complète entre deux images fixes, incluant l’audio, pour produire des scènes fluides et crédibles. Le modèle reste accessible via le Gemini API et Vertex AI, sans surcoût par rapport à Veo 3. En France, l’appli s’était déjà fait remarquer cet été pour sa capacité à créer des vidéos réalistes avec sons et dialogues. On peut donc voir que Google continue d’affiner son modèle, en misant sur la stabilité et la cohérence visuelle plutôt que sur la seule performance brute.


