Lumiere Google Research © Google Research
Lumiere Google Research
Ce modèle d’IA délaisse la conception en cascade classique pour une approche plus aboutie ; avec des résultats assez prometteurs.
Alors que les générateurs d’images par intelligence artificielle sont désormais légion et souvent bien aboutis, des outils similaires pour la vidéo restent moins nombreux et bien moins convaincants. Une équipe de chercheurs, dont plusieurs officient pour le compte de Google Research, compte bien y remédier avec Lumiere, un modèle d’IA de génération de vidéo d’un nouveau genre.
Un modèle qui adopte une approche différente
La réalisation d’une vidéo par l’IA est plus complexe que celle d’une image statique pour plusieurs facteurs. Le principal est la cohérence des mouvements : difficile de rendre une démarche naturelle par exemple. Il peut également y avoir des problèmes de saccades ou de gestion des interactions avec le décor.
Pour pallier ce problème, plutôt que d’assembler une succession d’images individuelles aboutissant à un agglomérat plus ou moins satisfaisant, Lumiere façonne l’ensemble de la vidéo en un seul processus via une gestion simultanée du placement des objets et de leur mouvement.
Les auteurs précisent : « L’architecture Space-Time U-Net génère toute la durée temporelle de la vidéo en une seule fois, par le biais d’un seul passage dans le modèle. Cela contraste avec les modèles vidéo existants qui synthétisent des images clés distantes suivies d’une super-résolution temporelle, une approche qui rend intrinsèquement difficile la cohérence temporelle globale ».
Hila Chefer, l’une des contributrices, a publié quelques démos sur son compte X.com.
Les chercheurs comparent la cohérence offerte par Lumiere par rapport à celle d’Imagen Video – un autre outil vidéo IA de Google – basé sur une conception en cascade plus traditionnelle.
Comparaison ImagenVideo et Lumiere © Google
Comparaison ImagenVideo et Lumiere © Google Research
Le résultat auquel aboutit Lumiere est également montré dans la vidéo ci-dessous.
Des clips de 5 secondes
Lumiere est en mesure de générer 80 images à une fréquence de 16 images par seconde, ce qui correspond à une séquence de 5 secondes. On reste loin du long métrage (et même du court), mais cette durée est raccord avec la majorité des solutions actuelles. Le modèle de Stable Video Diffusion par exemple aboutit à des séquences de 14 à 25 images pour des taux de rafraîchissement compris entre 3 et 30 images par seconde. En outre, la définition est de 576 x 1024 pixels contre 1024 × 1024 pour Lumiere. Parmi les autres solutions concurrentes, citons aussi celle de Pika Labs.
Lumiere peut générer des vidéos à partir de différentes requêtes, à commencer par celle text-to-video. À l’instar d’un générateur d’images classique, c’est une simple description écrite de la demande ; « un chien portant des lunettes de soleil qui conduit une voiture » pour prendre l’une de celles exprimées dans la vidéo d’illustration.
Lumiere accepte également une invite image-to-video. Elle consiste à générer une vidéo à partir d’une image. Il est également possible de demander des vidéos stylisées à partir d’une image de référence. Enfin, outre la génération de vidéos, le modèle peut éditer des vidéos existantes, pour animer ou remplir certaines zones, ce qui est moins ordinaire.
Il n’est pas possible de faire mumuse avec Lumiere pour le moment ; cela reste un projet de recherche. Une seule certitude, dans un avenir relativement proche, les générateurs de vidéos par intelligence artificielle deviendront aussi faciles d’accès que les générateurs d’images.
Approche Stunet © Google
Modèle STUNet © Google Research
Approche TSR © Google
Comparaison modèles TSR (temporal super-resolution) et STUNet © Google Research
Vous trouverez des détails sur les différents modèles TSR et STUNet pour terminer. N’hésitez pas à consulter la source si vous souhaitez approfondir le sujet.
Les meilleures IA pour générer vos contenus
L’émergence de l’intelligence artificielle comme outil grand public a ouvert de nombreuses possibilités pour tous les producteurs de contenus. Texte, image, son… Cette nouvelle technologie à la mode peut maintenant apporter son assistance dans de très nombreux domaines, et faciliter le travail dans les étapes les plus ingrates de la création. Et avec une offre qui ne cesse de s’accroître, il est important de distinguer quels outils apportent une véritable valeur ajoutée. Histoire de ne pas perdre des heures à essayer tout ce que proposent les pages de résultats de Google !
Source : Google Research
News Related-
Alexis Saelemaekers impliqué dans un transfert important avec un ancien buteur d'Anderlecht
-
TVA, congés, chèques-repas… tout ce qui change à partir de janvier 2024
-
Gémeaux : Horoscope amour - 28 novembre
-
Les tests de Mathieu: cette serrure connectée française joue la sécurité au détriment des fonctionnalités, vaut-elle ses 379€ ?
-
La malicieux Guardiola révèle enfin son plus grand secret
-
Vous manquez de sommeil ? Voici une astuce bien-être qui pourrait révolutionner votre vie
-
La trêve Hamas-Israël prolongée, d’autres libérations attendues
-
«2030, vers la fin du CDI ?» (Tipik) : l'avenir de l'emploi en Belgique
-
Psoriasis Signaux D’alerte Éléments À Rechercher
-
Le beau geste de Cristiano Ronaldo : le Portugais fait annuler un penalty en sa faveur (vidéo)
-
Pédopornographie : 31 personnes interpellées en Europe dont 4 en Belgique
-
Anderlecht publie une surprenante vidéo après la victoire dans le derby
-
Excellente nouvelle pour le Cercle de Bruges !
-
En Chine, les restes de fondue font voler les avions