Gemini Omni 是由 Google DeepMind 开发的前沿多模态视频生成模型。它支持通过文本、图像、视频片段和音频等灵活输入进行视频创作、编辑和混剪。凭借先进的场景一致性、镜头控制和音频生成能力,Gemini Omni 适用于广告、内容创作和教育视频制作。
Gemini Omni 可处理多种输入格式并生成相应的视频内容。例如,当提供一张动漫风格的乡村日落图像时,该模型可以生成一段保持原始构图、角色设计和色彩调色板的视频,仅添加轻柔微风吹动裙摆、头发和向日葵等细微自然动作,以及飘动的粒子和缓慢移动的云层。在另一个示例中,给定一段人物驾驶的视频片段并附带文本指令,模型可以在保留车辆运动和背景环境的同时,将画面中的人物替换为指定角色。
Gemini Omni 可处理多种输入格式并生成相应的视频内容。例如,当提供一张动漫风格的乡村日落图像时,该模型可以生成一段保持原始构图、角色设计和色彩调色板的视频,仅添加轻柔微风吹动裙摆、头发和向日葵等细微自然动作,以及飘动的粒子和缓慢移动的云层。在另一个示例中,给定一段人物驾驶的视频片段并附带文本指令,模型可以在保留车辆运动和背景环境的同时,将画面中的人物替换为指定角色。
立即试用Gemini Omni 将多种输入信号整合为统一的创意指令,使用户能够在单一工作流中完成视频生成和调整。
Gemini Omni 接受文本、图像、视频片段和音频作为输入参考,并将它们解读为相互关联的创意指令。用户可以通过文本描述概念,用图像定义视觉风格,使用视频片段提示运动,并通过音频引导整体基调。模型会综合这些信号,生成与用户意图较为贴近的视频内容。
用户可以通过文本描述修改现有视频内容,无需手动调整时间线或从头重新编辑。例如,诸如"从画面中移除指定徽标"或"将两个盘子里的意大利面替换为奶油南瓜汤,同时保持其他所有内容不变"等指令,可让模型在保留原始构图、运动和视觉风格的同时执行定向修改。
基于现有视频片段,用户可以通过文本指令生成新的版本,而无需从头重建。例如,将一段"海边行走的人"视频与产品素材结合,可以生成具有电影感的电视广告风格内容,把生活方式呈现与精致的产品视觉融合在一起。
该模型支持对视频中的特定对象或细节进行精准调整,而不是重新生成整个场景。用户可以要求修改特定元素,同时保持原始镜头运动、画面构图和视觉风格,从而提升迭代效率。
与以往模型相比,Gemini Omni 在输入灵活性、生成时长、场景一致性和输出质量方面展现出提升。
除了文本和图像提示外,Gemini Omni 还支持视频片段、音频和模板作为参考素材。用户可以在同一个创作过程中组合不同输入类型,而无需按格式拆分创意意图。
生成视频时长预计可达到约 15 到 30 秒,并具有相对流畅的节奏和转场。在跨帧一致性方面,与早期版本相比,该模型在保持角色身份、场景细节和环境元素方面表现出增强能力,对象持久性和多角色互动稳定性也有所提升。
该模型支持通过文本描述对镜头运动、取景和节奏进行较为精确的控制,并能在单一场景中实现多角度转场。例如,它可以从正面视角切换到侧面轮廓,同时保持角色外观和环境的一致性。
Gemini Omni 可以生成与视觉氛围匹配的场景音频,包括角色对白、环境声和音效。在数字人生成中,该模型可以基于参考图像保持面部特征和身份一致性,并让口型同步与表情变化和语音内容相匹配。
该模型适用于多个需要快速生成或调整视频的领域,帮助不同背景的用户降低视频制作门槛。
适用于广告原型创建、预可视化和商业短片制作。创作者可以通过文本快速生成概念验证视频,并在多轮迭代中调整镜头语言和视觉风格,以辅助前期制作决策。
适用于短视频和频道内容创作。该模型支持生成多段视频,并保持角色和视觉风格一致,便于创建连贯的系列内容,同时生成的音频也可满足对白需求。
可用于产品演示视频和品牌内容制作。通过自然语言描述,用户可以在画面内调整产品呈现、场景氛围和视觉基调,缩短从创意构思到最终输出的周期。
适用于讲解视频、操作演示和教学内容制作。该模型在保持文字和公式逻辑方面表现出更好的能力,能够生成包含黑板推导和分步演示的画面。多角度镜头切换也有助于展示具体操作细节。
在 Twitter 上关注 Gemini Omni,查看最新的社区创作、功能更新和真实视频故事。
Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ?? direct link for those who believes otherwise in comments
Sample video and early feedback 👀 > I won’t lie, this is one of the best video models I have seen, maybe not *the* best, but a really strong performance. I was particularly impressed by the prompt adherence (except for the one shot with the missing centerpiece), the model
Google will showcase Omni at Google I/O 2026 (May 19–20). Excited to see how this next-generation multimodal model advances AI-driven video creation and editing workflows. video by AIDRIVING #geminiomni
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model,
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new model also does a good job of removing watermarks from videos.