Gemini Omni est un modèle de génération vidéo multimodal de pointe développé par Google DeepMind. Il permet de créer, modifier et remixer des vidéos avec des entrées flexibles telles que du texte, des images, des clips vidéo et de l’audio. Grâce à ses capacités avancées de cohérence des scènes, de contrôle de la caméra et de génération audio, Gemini Omni convient à la publicité, à la création de contenu et à la production de vidéos éducatives.
Gemini Omni traite plusieurs formats d’entrée pour générer le contenu vidéo correspondant. Par exemple, lorsqu’on lui fournit une image de coucher de soleil à la campagne dans un style anime, le modèle peut produire une vidéo qui conserve la composition d’origine, le design du personnage et la palette de couleurs, en ajoutant seulement de subtils mouvements naturels comme une légère brise faisant bouger la robe, les cheveux et les tournesols, ainsi que des particules flottantes et des nuages se déplaçant lentement. Dans un autre exemple, à partir d’un clip vidéo montrant une personne au volant accompagné d’instructions textuelles, le modèle peut remplacer la silhouette par un personnage spécifié tout en préservant le mouvement du véhicule et l’environnement d’arrière-plan.
Gemini Omni traite plusieurs formats d’entrée pour générer le contenu vidéo correspondant. Par exemple, lorsqu’on lui fournit une image de coucher de soleil à la campagne dans un style anime, le modèle peut produire une vidéo qui conserve la composition d’origine, le design du personnage et la palette de couleurs, en ajoutant seulement de subtils mouvements naturels comme une légère brise faisant bouger la robe, les cheveux et les tournesols, ainsi que des particules flottantes et des nuages se déplaçant lentement. Dans un autre exemple, à partir d’un clip vidéo montrant une personne au volant accompagné d’instructions textuelles, le modèle peut remplacer la silhouette par un personnage spécifié tout en préservant le mouvement du véhicule et l’environnement d’arrière-plan.
Essayez-le maintenantGemini Omni intègre plusieurs signaux d’entrée dans des instructions créatives unifiées, permettant aux utilisateurs de réaliser la génération vidéo et les ajustements dans un seul flux de travail.
Gemini Omni accepte le texte, les images, les clips vidéo et l’audio comme références d’entrée, en les interprétant comme des directives créatives interconnectées. Les utilisateurs peuvent décrire des concepts par le texte, définir des styles visuels avec des images, suggérer des mouvements à l’aide de clips vidéo et guider le ton général avec de l’audio. Le modèle synthétise ces signaux afin de générer un contenu vidéo relativement fidèle à l’intention de l’utilisateur.
Les utilisateurs peuvent modifier un contenu vidéo existant à l’aide de descriptions textuelles, sans ajuster manuellement les timelines ni tout remonter depuis le début. Par exemple, des instructions comme "supprimer le logo spécifié de l’image" ou "remplacer les spaghettis dans les deux assiettes par une soupe crémeuse au potiron tout en gardant le reste inchangé" permettent au modèle d’effectuer des modifications ciblées tout en préservant la composition, le mouvement et le style visuel d’origine.
À partir de clips vidéo existants, les utilisateurs peuvent générer de nouvelles versions grâce à des instructions textuelles, sans reconstruire la vidéo depuis le début. Par exemple, combiner un clip de "personne marchant au bord de la mer" avec des images de produit peut produire un contenu de style publicité télévisée cinématographique, mêlant présentation lifestyle et visuels produit soignés.
Le modèle prend en charge des ajustements précis sur des objets ou des détails spécifiques dans une vidéo, plutôt que de régénérer toute la scène. Les utilisateurs peuvent demander des modifications d’éléments particuliers tout en conservant le mouvement de caméra, la composition du cadre et le style visuel d’origine, ce qui améliore l’efficacité des itérations.
Par rapport aux modèles précédents, Gemini Omni démontre des améliorations en matière de flexibilité des entrées, de durée de génération, de cohérence des scènes et de qualité de sortie.
Au-delà des prompts texte et image, Gemini Omni prend en charge les clips vidéo, l’audio et les modèles comme supports de référence. Les utilisateurs peuvent combiner différents types d’entrée dans un même processus créatif sans séparer l’intention créative par format.
La durée des vidéos générées devrait atteindre environ 15 à 30 secondes, avec un rythme et des transitions relativement fluides. En matière de cohérence entre les images, le modèle montre une capacité renforcée à maintenir l’identité des personnages, les détails de scène et les éléments environnementaux, avec une permanence des objets et une stabilité des interactions entre plusieurs personnages améliorées par rapport aux versions précédentes.
Le modèle prend en charge un contrôle relativement précis du mouvement de caméra, du cadrage et du rythme via des descriptions textuelles, et peut réaliser des transitions multi-angles au sein d’une même scène. Par exemple, il peut passer d’une vue frontale à un profil latéral tout en conservant l’apparence du personnage et l’environnement de manière cohérente.
Gemini Omni peut générer un audio de scène adapté à l’atmosphère visuelle, incluant dialogues de personnages, sons d’ambiance et effets sonores. Pour la génération d’avatars, le modèle peut maintenir les traits du visage et la cohérence de l’identité à partir d’images de référence, avec une synchronisation labiale et des changements d’expressions faciales alignés sur le contenu vocal.
Le modèle s’applique à plusieurs domaines nécessitant une génération ou un ajustement rapide de vidéos, aidant les utilisateurs de profils variés à réduire les obstacles à la production vidéo.
Adapté à la création de prototypes publicitaires, à la prévisualisation et à la production de courts métrages commerciaux. Les créateurs peuvent générer rapidement des vidéos de preuve de concept à partir de texte, en ajustant le langage de caméra et le style visuel sur plusieurs itérations pour faciliter les décisions de préproduction.
Applicable à la création de vidéos courtes et de contenus de chaîne. Le modèle prend en charge la génération de vidéos multi-segments avec des personnages et des styles visuels cohérents, facilitant la création de séries de contenus homogènes, tandis que l’audio généré peut répondre aux besoins de dialogue.
Utilisable pour les vidéos de démonstration produit et la production de contenu de marque. Grâce à des descriptions en langage naturel, les utilisateurs peuvent ajuster la présentation du produit, l’atmosphère de la scène et le ton visuel dans le cadre, raccourcissant le cycle entre la conception créative et le résultat final.
Adapté aux vidéos explicatives, aux démonstrations opérationnelles et à la production de contenus pédagogiques. Le modèle montre une capacité améliorée à maintenir la logique du texte et des formules, et peut générer des séquences incluant des démonstrations au tableau et des explications étape par étape. Les changements de caméra multi-angles aident également à afficher des détails opérationnels spécifiques.
Suivez Gemini Omni sur Twitter pour découvrir les dernières créations de la communauté, les mises à jour de fonctionnalités et des histoires vidéo concrètes.
Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ?? direct link for those who believes otherwise in comments
Sample video and early feedback 👀 > I won’t lie, this is one of the best video models I have seen, maybe not *the* best, but a really strong performance. I was particularly impressed by the prompt adherence (except for the one shot with the missing centerpiece), the model
Google will showcase Omni at Google I/O 2026 (May 19–20). Excited to see how this next-generation multimodal model advances AI-driven video creation and editing workflows. video by AIDRIVING #geminiomni
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model,
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new model also does a good job of removing watermarks from videos.