Gemini Omni é um modelo multimodal de geração de vídeos de ponta desenvolvido pela Google DeepMind. Ele permite criar, editar e remixar vídeos com entradas flexíveis, como texto, imagens, clipes de vídeo e áudio. Com consistência avançada de cenas, controle de câmera e recursos de geração de áudio, o Gemini Omni é adequado para publicidade, criação de conteúdo e produção de vídeos educacionais.
O Gemini Omni processa vários formatos de entrada para gerar o conteúdo de vídeo correspondente. Por exemplo, ao receber uma imagem de pôr do sol no campo em estilo anime, o modelo pode produzir um vídeo que mantém a composição original, o design dos personagens e a paleta de cores, adicionando apenas movimentos naturais sutis, como uma brisa suave movendo o vestido, o cabelo e os girassóis, além de partículas flutuantes e nuvens se movendo lentamente. Em outro exemplo, ao receber um clipe de vídeo de uma pessoa dirigindo com instruções de texto complementares, o modelo pode substituir a figura por um personagem especificado, preservando o movimento do veículo e o ambiente de fundo.
O Gemini Omni processa vários formatos de entrada para gerar o conteúdo de vídeo correspondente. Por exemplo, ao receber uma imagem de pôr do sol no campo em estilo anime, o modelo pode produzir um vídeo que mantém a composição original, o design dos personagens e a paleta de cores, adicionando apenas movimentos naturais sutis, como uma brisa suave movendo o vestido, o cabelo e os girassóis, além de partículas flutuantes e nuvens se movendo lentamente. Em outro exemplo, ao receber um clipe de vídeo de uma pessoa dirigindo com instruções de texto complementares, o modelo pode substituir a figura por um personagem especificado, preservando o movimento do veículo e o ambiente de fundo.
Experimente agoraO Gemini Omni integra vários sinais de entrada em instruções criativas unificadas, permitindo que os usuários concluam a geração e os ajustes de vídeo em um único fluxo de trabalho.
O Gemini Omni aceita texto, imagens, clipes de vídeo e áudio como referências de entrada, interpretando-os como diretrizes criativas interconectadas. Os usuários podem descrever conceitos por texto, definir estilos visuais com imagens, sugerir movimento usando clipes de vídeo e orientar o tom geral com áudio. O modelo sintetiza esses sinais para gerar conteúdo de vídeo que se alinha relativamente bem à intenção do usuário.
Os usuários podem modificar conteúdo de vídeo existente por meio de descrições de texto sem ajustar manualmente linhas do tempo ou reeditar tudo do zero. Por exemplo, instruções como "remova o logotipo especificado do quadro" ou "substitua o espaguete nos dois pratos por uma sopa cremosa de abóbora, mantendo todo o resto inalterado" permitem que o modelo realize modificações direcionadas preservando a composição, o movimento e o estilo visual originais.
Com base em clipes de vídeo existentes, os usuários podem gerar novas versões por meio de instruções de texto sem reconstruir tudo desde o início. Por exemplo, combinar um clipe de "pessoa caminhando à beira-mar" com imagens de produto pode resultar em conteúdo no estilo de comercial de televisão cinematográfico, que mistura apresentação de estilo de vida com visuais de produto refinados.
O modelo oferece suporte a ajustes precisos em objetos ou detalhes específicos dentro de um vídeo, em vez de regenerar a cena inteira. Os usuários podem solicitar modificações em elementos específicos mantendo o movimento original da câmera, a composição do quadro e o estilo visual, melhorando a eficiência da iteração.
Em comparação com modelos anteriores, o Gemini Omni demonstra melhorias na flexibilidade de entrada, duração da geração, consistência de cena e qualidade de saída.
Além de prompts de texto e imagem, o Gemini Omni oferece suporte a clipes de vídeo, áudio e modelos como materiais de referência. Os usuários podem combinar diferentes tipos de entrada em um único processo criativo sem separar a intenção criativa por formato.
Espera-se que a duração dos vídeos gerados alcance aproximadamente 15 a 30 segundos, com ritmo e transições relativamente suaves. Em relação à consistência entre quadros, o modelo mostra maior capacidade de manter a identidade dos personagens, detalhes da cena e elementos ambientais, com permanência de objetos e estabilidade de interação entre vários personagens aprimoradas em comparação com versões anteriores.
O modelo oferece suporte a um controle relativamente preciso do movimento da câmera, enquadramento e ritmo por meio de descrições de texto, e pode realizar transições de múltiplos ângulos dentro de uma única cena. Por exemplo, ele pode mudar de uma visão frontal para um perfil lateral mantendo a aparência do personagem e o ambiente consistentes.
O Gemini Omni pode gerar áudio de cena compatível com a atmosfera visual, incluindo diálogo de personagens, som ambiente e efeitos sonoros. Na geração de avatares, o modelo pode manter características faciais e consistência de identidade com base em imagens de referência, com sincronização labial e mudanças de expressão facial alinhadas ao conteúdo da voz.
O modelo se aplica a vários campos que exigem geração ou ajuste rápido de vídeos, ajudando usuários de diferentes perfis a reduzir barreiras na produção de vídeo.
Adequado para criação de protótipos publicitários, pré-visualização e produção de curtas comerciais. Criadores podem gerar rapidamente vídeos de prova de conceito por meio de texto, ajustando a linguagem de câmera e o estilo visual em várias iterações para auxiliar a tomada de decisões na pré-produção.
Aplicável à criação de vídeos curtos e conteúdo para canais. O modelo oferece suporte à geração de vídeos em múltiplos segmentos com personagens e estilos visuais consistentes, facilitando a criação de séries coerentes, enquanto o áudio gerado pode atender a requisitos de diálogo.
Utilizável para vídeos de demonstração de produtos e produção de conteúdo de marca. Por meio de descrições em linguagem natural, os usuários podem ajustar a apresentação do produto, a atmosfera da cena e o tom visual dentro do quadro, encurtando o ciclo da concepção criativa até o resultado final.
Adequado para vídeos explicativos, demonstrações operacionais e produção de conteúdo didático. O modelo mostra capacidade aprimorada de manter a lógica de textos e fórmulas, sendo capaz de gerar filmagens que incluem derivações em quadro-negro e demonstrações passo a passo. A alternância de câmera em múltiplos ângulos também ajuda a exibir detalhes operacionais específicos.
Siga o Gemini Omni no Twitter para ver as criações mais recentes da comunidade, atualizações de recursos e histórias reais em vídeo.
Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ?? direct link for those who believes otherwise in comments
Sample video and early feedback 👀 > I won’t lie, this is one of the best video models I have seen, maybe not *the* best, but a really strong performance. I was particularly impressed by the prompt adherence (except for the one shot with the missing centerpiece), the model
Google will showcase Omni at Google I/O 2026 (May 19–20). Excited to see how this next-generation multimodal model advances AI-driven video creation and editing workflows. video by AIDRIVING #geminiomni
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model,
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new model also does a good job of removing watermarks from videos.