Gemini Omni es un modelo de generación de video multimodal de vanguardia desarrollado por Google DeepMind. Permite crear, editar y remezclar videos con entradas flexibles como texto, imágenes, clips de video y audio. Gracias a sus capacidades avanzadas de coherencia de escenas, control de cámara y generación de audio, Gemini Omni es adecuado para publicidad, creación de contenido y producción de videos educativos.
Gemini Omni procesa varios formatos de entrada para generar el contenido de video correspondiente. Por ejemplo, al proporcionarle una imagen de un atardecer rural con estilo anime, el modelo puede producir un video que mantiene la composición original, el diseño del personaje y la paleta de colores, añadiendo solo movimiento natural sutil, como una brisa suave que mueve el vestido, el cabello y los girasoles, junto con partículas flotantes y nubes que se desplazan lentamente. En otro ejemplo, a partir de un clip de video de una persona conduciendo con instrucciones de texto adicionales, el modelo puede reemplazar la figura por un personaje especificado mientras conserva el movimiento del vehículo y el entorno de fondo.
Gemini Omni procesa varios formatos de entrada para generar el contenido de video correspondiente. Por ejemplo, al proporcionarle una imagen de un atardecer rural con estilo anime, el modelo puede producir un video que mantiene la composición original, el diseño del personaje y la paleta de colores, añadiendo solo movimiento natural sutil, como una brisa suave que mueve el vestido, el cabello y los girasoles, junto con partículas flotantes y nubes que se desplazan lentamente. En otro ejemplo, a partir de un clip de video de una persona conduciendo con instrucciones de texto adicionales, el modelo puede reemplazar la figura por un personaje especificado mientras conserva el movimiento del vehículo y el entorno de fondo.
Pruébalo ahoraGemini Omni integra varias señales de entrada en instrucciones creativas unificadas, lo que permite a los usuarios completar la generación y los ajustes de video dentro de un único flujo de trabajo.
Gemini Omni acepta texto, imágenes, clips de video y audio como referencias de entrada, interpretándolos como directrices creativas interconectadas. Los usuarios pueden describir conceptos mediante texto, definir estilos visuales con imágenes, sugerir movimiento usando clips de video y orientar el tono general con audio. El modelo sintetiza estas señales para generar contenido de video que se ajusta de forma relativamente cercana a la intención del usuario.
Los usuarios pueden modificar contenido de video existente mediante descripciones de texto sin ajustar manualmente líneas de tiempo ni volver a editar desde cero. Por ejemplo, instrucciones como "elimina el logotipo especificado del fotograma" o "reemplaza los espaguetis de ambos platos por sopa cremosa de calabaza manteniendo todo lo demás sin cambios" permiten al modelo realizar modificaciones específicas mientras conserva la composición, el movimiento y el estilo visual originales.
A partir de clips de video existentes, los usuarios pueden generar nuevas versiones mediante instrucciones de texto sin reconstruir desde el principio. Por ejemplo, combinar un clip de una "persona caminando junto al mar" con material de producto puede producir contenido con estilo de anuncio televisivo cinematográfico que mezcla una presentación de estilo de vida con visuales de producto pulidos.
El modelo admite ajustes precisos en objetos o detalles específicos dentro de un video, en lugar de regenerar toda la escena. Los usuarios pueden solicitar modificaciones de elementos concretos mientras se mantiene el movimiento original de la cámara, la composición del encuadre y el estilo visual, lo que mejora la eficiencia de la iteración.
En comparación con modelos anteriores, Gemini Omni demuestra mejoras en flexibilidad de entrada, duración de generación, coherencia de escenas y calidad de salida.
Además de prompts de texto e imagen, Gemini Omni admite clips de video, audio y plantillas como materiales de referencia. Los usuarios pueden combinar distintos tipos de entrada dentro de un único proceso creativo sin separar la intención creativa por formato.
Se espera que la duración del video generado alcance aproximadamente entre 15 y 30 segundos, con un ritmo y transiciones relativamente fluidos. En cuanto a la coherencia entre fotogramas, el modelo muestra una capacidad mejorada para mantener la identidad de los personajes, los detalles de la escena y los elementos del entorno, con una permanencia de objetos y una estabilidad de interacción entre múltiples personajes superiores en comparación con versiones anteriores.
El modelo admite un control relativamente preciso del movimiento de cámara, el encuadre y el ritmo mediante descripciones de texto, y puede lograr transiciones entre múltiples ángulos dentro de una misma escena. Por ejemplo, puede pasar de una vista frontal a un perfil lateral mientras mantiene una apariencia del personaje y un entorno coherentes.
Gemini Omni puede generar audio de escena ajustado a la atmósfera visual, incluidos diálogos de personajes, sonido ambiental y efectos sonoros. En la generación de avatares, el modelo puede mantener la coherencia de rasgos faciales e identidad a partir de imágenes de referencia, con sincronización labial y cambios de expresión facial alineados con el contenido de la voz.
El modelo se aplica a múltiples campos que requieren generación o ajuste rápido de video, ayudando a usuarios con distintos perfiles a reducir las barreras de producción de video.
Adecuado para la creación de prototipos publicitarios, previsualización y producción de cortometrajes comerciales. Los creadores pueden generar rápidamente videos de prueba de concepto mediante texto, ajustando el lenguaje de cámara y el estilo visual a través de múltiples iteraciones para ayudar en la toma de decisiones de preproducción.
Aplicable a la creación de videos cortos y contenido para canales. El modelo admite la generación de videos de varios segmentos con personajes y estilos visuales coherentes, lo que facilita la creación de series de contenido consistentes, mientras que el audio generado puede adaptarse a requisitos de diálogo.
Utilizable para videos de demostración de productos y producción de contenido de marca. Mediante descripciones en lenguaje natural, los usuarios pueden ajustar la presentación del producto, la atmósfera de la escena y el tono visual dentro del encuadre, acortando el ciclo desde la concepción creativa hasta el resultado final.
Adecuado para videos explicativos, demostraciones operativas y producción de contenido didáctico. El modelo muestra una capacidad mejorada para mantener la lógica de texto y fórmulas, y puede generar material que incluya derivaciones en pizarra y demostraciones paso a paso. El cambio de cámara entre múltiples ángulos también ayuda a mostrar detalles operativos específicos.
Sigue a Gemini Omni en Twitter para ver las últimas creaciones de la comunidad, actualizaciones de funciones e historias de video reales.
Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ?? direct link for those who believes otherwise in comments
Sample video and early feedback 👀 > I won’t lie, this is one of the best video models I have seen, maybe not *the* best, but a really strong performance. I was particularly impressed by the prompt adherence (except for the one shot with the missing centerpiece), the model
Google will showcase Omni at Google I/O 2026 (May 19–20). Excited to see how this next-generation multimodal model advances AI-driven video creation and editing workflows. video by AIDRIVING #geminiomni
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model,
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new model also does a good job of removing watermarks from videos.