Gemini Omni 是由 Google DeepMind 開發的尖端多模態影片生成模型。它支援使用文字、圖片、影片片段與音訊等彈性輸入來建立、編輯與重新混合影片。憑藉先進的場景一致性、鏡頭控制與音訊生成能力,Gemini Omni 適用於廣告、內容創作與教育影片製作。
Gemini Omni 可處理多種輸入格式,以生成相應的影片內容。例如,當提供一張動漫風格的鄉村夕陽圖片時,模型可以生成一段保留原始構圖、角色設計與色彩配置的影片,只加入細微的自然動態,例如微風輕拂洋裝、頭髮與向日葵,並搭配飄動的粒子與緩慢移動的雲朵。另一個範例中,若提供一段人物駕車的影片片段並附上文字指示,模型可以在保留車輛動態與背景環境的同時,將畫面中的人物替換為指定角色。
Gemini Omni 可處理多種輸入格式,以生成相應的影片內容。例如,當提供一張動漫風格的鄉村夕陽圖片時,模型可以生成一段保留原始構圖、角色設計與色彩配置的影片,只加入細微的自然動態,例如微風輕拂洋裝、頭髮與向日葵,並搭配飄動的粒子與緩慢移動的雲朵。另一個範例中,若提供一段人物駕車的影片片段並附上文字指示,模型可以在保留車輛動態與背景環境的同時,將畫面中的人物替換為指定角色。
立即試用Gemini Omni 將多種輸入訊號整合為統一的創意指令,讓使用者能在單一工作流程中完成影片生成與調整。
Gemini Omni 接受文字、圖片、影片片段與音訊作為輸入參考,並將它們解讀為相互關聯的創意指令。使用者可以透過文字描述概念、用圖片定義視覺風格、以影片片段提示動態,並用音訊引導整體氛圍。模型會綜合這些訊號,生成相對貼近使用者意圖的影片內容。
使用者可以透過文字描述修改現有影片內容,無需手動調整時間軸或從頭重新編輯。例如,像是 "remove the specified logo from the frame" 或 "replace the spaghetti on both plates with creamy pumpkin soup while keeping everything else unchanged" 這類指令,可讓模型在保留原始構圖、動態與視覺風格的同時,執行定向修改。
基於現有影片片段,使用者可以透過文字指令生成新版本,而不必從頭建立。例如,將一段 "person walking by the sea" 片段與產品素材結合,可產生電影感電視廣告風格的內容,把生活風格呈現與精緻產品視覺融合在一起。
模型支援對影片中的特定物件或細節進行精準調整,而不是重新生成整個場景。使用者可以要求修改特定元素,同時維持原始鏡頭運動、畫面構圖與視覺風格,提升反覆迭代的效率。
相較於先前模型,Gemini Omni 在輸入彈性、生成時長、場景一致性與輸出品質方面展現出提升。
除了文字與圖片提示外,Gemini Omni 還支援影片片段、音訊與範本作為參考素材。使用者可以在單一創作流程中組合不同輸入類型,無需依格式拆分創意意圖。
生成影片長度預期可達約 15 至 30 秒,節奏與轉場相對流暢。在跨影格一致性方面,模型展現出更強的能力,可維持角色身份、場景細節與環境元素;相較於早期版本,物件持久性與多角色互動穩定性也有所提升。
模型支援透過文字描述對鏡頭運動、取景與節奏進行相對精準的控制,並能在單一場景中實現多角度轉換。例如,它可以從正面視角切換到側面輪廓,同時維持一致的角色外觀與環境。
Gemini Omni 可以生成與視覺氛圍相匹配的場景音訊,包括角色對白、環境聲與音效。在虛擬人像生成中,模型可根據參考圖片維持臉部特徵與身份一致性,並讓嘴型同步與表情變化符合語音內容。
此模型適用於多個需要快速生成或調整影片的領域,幫助不同背景的使用者降低影片製作門檻。
適用於廣告原型建立、預視覺化與商業短片製作。創作者可以透過文字快速生成概念驗證影片,並在多次迭代中調整鏡頭語言與視覺風格,以協助前期製作決策。
適用於短影音與頻道內容創作。模型支援具備一致角色與視覺風格的多段影片生成,有助於創作連貫的系列內容,而生成的音訊也能滿足對白需求。
可用於產品展示影片與品牌內容製作。透過自然語言描述,使用者可以調整畫面中的產品呈現、場景氛圍與視覺調性,縮短從創意構想到最終輸出的週期。
適用於解說影片、操作示範與教學內容製作。模型在維持文字與公式邏輯方面展現出更好的能力,能生成包含黑板推導與逐步示範的畫面。多角度鏡頭切換也有助於展示特定操作細節。
在 Twitter 上追蹤 Gemini Omni,查看最新社群創作、功能更新與真實影片故事。
Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ?? direct link for those who believes otherwise in comments
Sample video and early feedback 👀 > I won’t lie, this is one of the best video models I have seen, maybe not *the* best, but a really strong performance. I was particularly impressed by the prompt adherence (except for the one shot with the missing centerpiece), the model
Google will showcase Omni at Google I/O 2026 (May 19–20). Excited to see how this next-generation multimodal model advances AI-driven video creation and editing workflows. video by AIDRIVING #geminiomni
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model,
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new model also does a good job of removing watermarks from videos.