L’équipe de Google Research a développé une nouvelle intelligence artificielle (IA) appelée VideoPoet, capable de générer des vidéos de qualité supérieure en utilisant une architecture différente de celle des modèles actuels. Contrairement aux modèles vidéo pré-entraînés sur des images, VideoPoet se base sur le modèle LLM (Language-to-Language Model), inspiré de l’architecture transformer utilisée dans la génération de texte et de code.
Sommaire
Entraînement intensif pour obtenir des résultats impressionnants
Pour entraîner VideoPoet, les chercheurs ont utilisé un total de 270 millions de vidéos et plus d’un milliard de paires texte-image provenant de diverses sources. Ces données ont été converties en représentations textuelles, visuelles et sonores pour adapter la performance du modèle IA. Les résultats obtenus par VideoPoet sont sans équivoque impressionnants par rapport aux autres modèles de génération vidéo.
- Mouvements plus fluides : VideoPoet réussit à produire des animations de meilleure qualité et de durée plus longue avec une cohérence des mouvements accrue, là où les AIs basées sur la diffusion rencontrent souvent des problèmes avec la génération de grands mouvements cohérents et présentent des artefacts visibles.
- Vaste palette de fonctionnalités : Cette nouvelle IA permet de simuler différentes motions de caméra, styles visuels et même générer de nouveaux éléments sonores pour un clip vidéo donné.
- Orientation portrait : Google Research a conçu VideoPoet pour produire par défaut des vidéos en mode portrait afin de répondre aux besoins du marché mobile populaire sur les plates-formes telles que Snap et TikTok.
Comparaison des clips générés par VideoPoet et d’autres modèles
Pour démontrer les capacités de VideoPoet, les chercheurs ont présenté des extraits générés et les ont comparés aux résultats d’autres modèles de création de vidéos. Les différences qualitatives étaient clairement visibles, montrant les performances supérieures de VideoPoet dans la génération de mouvements plus grands et cohérents dans des durées de vidéos plus importantes.
Prochaines étapes : étendre les capacités de VideoPoet
L’équipe de recherche de Google souhaite désormais élargir les fonctionnalités de VideoPoet pour aborder le champ des tâches de génération « d’un type à un autre » comme les conversions texte-audio ou audio-vidéo. Ce développement devrait repousser encore davantage les limites de ce que l’on peut accomplir en matière de génération vidéo et audio.
Des applications prometteuses pour divers domaines
VideoPoet pourrait avoir un impact majeur sur plusieurs secteurs tels que :
- Publicité : Les agences publicitaires pourront créer des contenus plus engageants et variés, tout en maintenant une cohérence entre les différentes scènes du clip vidéo.
- Cinéma et divertissement : Les réalisateurs pourront s’appuyer sur l’IA pour générer des séquences de qualité et expérimenter différents styles visuels sans coût supplémentaire.
- E-commerce : Les plateformes e-commerce pourraient tirer profit de VideoPoet pour créer des vidéos attrayantes présentant leurs produits sous tous les angles possibles, avec des ambiances sonores adaptées.
- De manière générale, toute entreprise ayant besoin de contenus vidéo de haute qualité pourrait bénéficier de VideoPoet.
Avec ses performances impressionnantes et ses applications prometteuses dans divers domaines, VideoPoet, la nouvelle IA développée par Google Research, semble bien parti pour révolutionner la génération vidéo. Non seulement elle devrait améliorer la qualité et la cohérence des mouvements dans les clips vidéo, mais elle offrira également une palette élargie de fonctionnalités pour que les créateurs puissent donner vie à leurs idées d’une manière inédite et percutante.