Gemini Omni ist ein hochmodernes multimodales Modell zur Videogenerierung, das von Google DeepMind entwickelt wurde. Es ermöglicht die Erstellung, Bearbeitung und Neuabmischung von Videos mit flexiblen Eingaben wie Text, Bildern, Videoclips und Audio. Mit fortschrittlicher Szenenkonsistenz, Kamerasteuerung und Funktionen zur Audiogenerierung eignet sich Gemini Omni für Werbung, Content-Erstellung und die Produktion von Bildungsvideos.
Gemini Omni verarbeitet mehrere Eingabeformate, um entsprechende Videoinhalte zu generieren. Wird dem Modell beispielsweise ein Bild eines ländlichen Sonnenuntergangs im Anime-Stil bereitgestellt, kann es ein Video erzeugen, das die ursprüngliche Komposition, das Charakterdesign und die Farbpalette beibehält und nur subtile natürliche Bewegungen hinzufügt, etwa eine sanfte Brise, die Kleid, Haare und Sonnenblumen bewegt, zusammen mit schwebenden Partikeln und langsam ziehenden Wolken. In einem anderen Beispiel kann das Modell, wenn es einen Videoclip einer fahrenden Person mit begleitenden Textanweisungen erhält, die Figur durch einen angegebenen Charakter ersetzen und dabei Fahrzeugbewegung und Hintergrundumgebung bewahren.
Gemini Omni verarbeitet mehrere Eingabeformate, um entsprechende Videoinhalte zu generieren. Wird dem Modell beispielsweise ein Bild eines ländlichen Sonnenuntergangs im Anime-Stil bereitgestellt, kann es ein Video erzeugen, das die ursprüngliche Komposition, das Charakterdesign und die Farbpalette beibehält und nur subtile natürliche Bewegungen hinzufügt, etwa eine sanfte Brise, die Kleid, Haare und Sonnenblumen bewegt, zusammen mit schwebenden Partikeln und langsam ziehenden Wolken. In einem anderen Beispiel kann das Modell, wenn es einen Videoclip einer fahrenden Person mit begleitenden Textanweisungen erhält, die Figur durch einen angegebenen Charakter ersetzen und dabei Fahrzeugbewegung und Hintergrundumgebung bewahren.
Jetzt ausprobierenGemini Omni integriert mehrere Eingangssignale zu einheitlichen kreativen Anweisungen, sodass Nutzer Videogenerierung und Anpassungen in einem einzigen Workflow abschließen können.
Gemini Omni akzeptiert Text, Bilder, Videoclips und Audio als Eingabereferenzen und interpretiert sie als miteinander verbundene kreative Vorgaben. Nutzer können Konzepte per Text beschreiben, visuelle Stile mit Bildern definieren, Bewegungen mithilfe von Videoclips vorschlagen und die allgemeine Stimmung durch Audio steuern. Das Modell synthetisiert diese Signale, um Videoinhalte zu generieren, die relativ eng mit der Nutzerabsicht übereinstimmen.
Nutzer können vorhandene Videoinhalte durch Textbeschreibungen ändern, ohne Zeitleisten manuell anzupassen oder von Grund auf neu zu bearbeiten. Anweisungen wie "das angegebene Logo aus dem Bild entfernen" oder "die Spaghetti auf beiden Tellern durch cremige Kürbissuppe ersetzen, während alles andere unverändert bleibt" ermöglichen es dem Modell beispielsweise, gezielte Änderungen vorzunehmen und dabei ursprüngliche Komposition, Bewegung und visuellen Stil zu bewahren.
Ausgehend von vorhandenen Videoclips können Nutzer per Textanweisung neue Versionen generieren, ohne von vorne beginnen zu müssen. Beispielsweise kann die Kombination eines Clips mit einer "Person, die am Meer entlanggeht" und Produktaufnahmen filmische Inhalte im Stil eines TV-Werbespots ergeben, die Lifestyle-Präsentation mit hochwertigen Produktvisuals verbinden.
Das Modell unterstützt präzise Anpassungen bestimmter Objekte oder Details innerhalb eines Videos, anstatt die gesamte Szene neu zu generieren. Nutzer können Änderungen an einzelnen Elementen anfordern und dabei ursprüngliche Kamerabewegung, Bildkomposition und visuellen Stil beibehalten, was die Iteration effizienter macht.
Im Vergleich zu früheren Modellen zeigt Gemini Omni Verbesserungen bei Eingabeflexibilität, Generierungsdauer, Szenenkonsistenz und Ausgabequalität.
Über Text- und Bildprompts hinaus unterstützt Gemini Omni Videoclips, Audio und Vorlagen als Referenzmaterialien. Nutzer können verschiedene Eingabetypen in einem einzigen kreativen Prozess kombinieren, ohne die kreative Absicht nach Format trennen zu müssen.
Die Länge generierter Videos wird voraussichtlich etwa 15 bis 30 Sekunden erreichen, mit relativ flüssigem Tempo und Übergängen. Bei der Konsistenz über Frames hinweg zeigt das Modell eine verbesserte Fähigkeit, Charakteridentität, Szenendetails und Umgebungselemente beizubehalten, mit besserer Objektbeständigkeit und stabilerer Interaktion mehrerer Charaktere im Vergleich zu früheren Versionen.
Das Modell unterstützt eine relativ präzise Steuerung von Kamerabewegung, Bildausschnitt und Tempo durch Textbeschreibungen und kann Übergänge zwischen mehreren Blickwinkeln innerhalb einer einzigen Szene erzielen. Beispielsweise kann es von einer Frontalansicht zu einem Seitenprofil wechseln und dabei ein konsistentes Erscheinungsbild des Charakters und der Umgebung beibehalten.
Gemini Omni kann Szenenaudio erzeugen, das zur visuellen Atmosphäre passt, einschließlich Charakterdialog, Umgebungsgeräuschen und Soundeffekten. Bei der Avatar-Generierung kann das Modell auf Basis von Referenzbildern Gesichtszüge und Identität konsistent halten, wobei Lippensynchronisation und Änderungen des Gesichtsausdrucks auf den Sprachinhalt abgestimmt sind.
Das Modell eignet sich für mehrere Bereiche, die eine schnelle Videogenerierung oder -anpassung erfordern, und hilft Nutzern mit unterschiedlichem Hintergrund, Hürden in der Videoproduktion zu reduzieren.
Geeignet für die Erstellung von Werbeprototypen, Pre-Visualization und die Produktion kommerzieller Kurzfilme. Kreative können schnell Proof-of-Concept-Videos per Text generieren und Kamerasprache sowie visuellen Stil über mehrere Iterationen hinweg anpassen, um Entscheidungen in der Vorproduktion zu unterstützen.
Anwendbar für Kurzvideo- und Kanal-Content-Erstellung. Das Modell unterstützt die Generierung mehrerer Videosegmente mit konsistenten Charakteren und visuellen Stilen, erleichtert die Erstellung zusammenhängender Serieninhalte und kann mit generiertem Audio Dialoganforderungen erfüllen.
Nutzbar für Produktdemonstrationsvideos und die Produktion von Markeninhalten. Durch Beschreibungen in natürlicher Sprache können Nutzer Produktpräsentation, Szenenatmosphäre und visuellen Ton innerhalb des Bildes anpassen und so den Zyklus von der kreativen Konzeption bis zur finalen Ausgabe verkürzen.
Geeignet für Erklärvideos, Bedienungsdemonstrationen und die Produktion von Lehrinhalten. Das Modell zeigt eine verbesserte Fähigkeit, Text- und Formellogik beizubehalten, und kann Aufnahmen mit Tafelableitungen und Schritt-für-Schritt-Demonstrationen generieren. Auch Kamerwechsel zwischen mehreren Blickwinkeln helfen dabei, bestimmte operative Details darzustellen.
Folgen Sie Gemini Omni auf Twitter, um die neuesten Community-Kreationen, Funktionsupdates und realen Videogeschichten zu sehen.
Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ?? direct link for those who believes otherwise in comments
Sample video and early feedback 👀 > I won’t lie, this is one of the best video models I have seen, maybe not *the* best, but a really strong performance. I was particularly impressed by the prompt adherence (except for the one shot with the missing centerpiece), the model
Google will showcase Omni at Google I/O 2026 (May 19–20). Excited to see how this next-generation multimodal model advances AI-driven video creation and editing workflows. video by AIDRIVING #geminiomni
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model,
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new model also does a good job of removing watermarks from videos.