Gemini Omni は、Google DeepMind が開発した最先端のマルチモーダル動画生成モデルです。テキスト、画像、動画クリップ、音声などの柔軟な入力を使って、動画の作成、編集、リミックスを可能にします。高度なシーン一貫性、カメラ制御、音声生成機能により、Gemini Omni は広告、コンテンツ制作、教育用動画制作に適しています。
Gemini Omni は複数の入力形式を処理し、それに対応する動画コンテンツを生成します。たとえば、アニメ風の田園の夕暮れ画像を提供すると、元の構図、キャラクターデザイン、カラーパレットを維持しながら、そよ風でドレス、髪、ヒマワリが揺れるような繊細で自然な動き、漂う粒子、ゆっくり動く雲だけを追加した動画を生成できます。別の例では、運転中の人物の動画クリップとテキスト指示を与えると、車両の動きや背景環境を保ったまま、その人物を指定したキャラクターに置き換えることができます。
Gemini Omni は複数の入力形式を処理し、それに対応する動画コンテンツを生成します。たとえば、アニメ風の田園の夕暮れ画像を提供すると、元の構図、キャラクターデザイン、カラーパレットを維持しながら、そよ風でドレス、髪、ヒマワリが揺れるような繊細で自然な動き、漂う粒子、ゆっくり動く雲だけを追加した動画を生成できます。別の例では、運転中の人物の動画クリップとテキスト指示を与えると、車両の動きや背景環境を保ったまま、その人物を指定したキャラクターに置き換えることができます。
今すぐ試すGemini Omni は複数の入力信号を統合されたクリエイティブ指示にまとめ、ユーザーが単一のワークフロー内で動画生成と調整を完了できるようにします。
Gemini Omni は、テキスト、画像、動画クリップ、音声を入力参照として受け取り、それらを相互に関連したクリエイティブ指示として解釈します。ユーザーはテキストでコンセプトを説明し、画像でビジュアルスタイルを定義し、動画クリップで動きを示唆し、音声で全体のトーンを導くことができます。モデルはこれらの信号を統合し、ユーザーの意図に比較的近い動画コンテンツを生成します。
ユーザーはタイムラインを手動で調整したり、最初から再編集したりすることなく、テキスト説明を通じて既存の動画コンテンツを変更できます。たとえば、"フレーム内の指定したロゴを削除する" や "他はすべて変更せず、両方の皿のスパゲッティをクリーミーなかぼちゃスープに置き換える" といった指示により、元の構図、動き、ビジュアルスタイルを維持しながら、モデルが対象を絞った修正を実行できます。
既存の動画クリップを基に、最初から作り直すことなく、テキスト指示によって新しいバージョンを生成できます。たとえば、"海辺を歩く人物" のクリップと商品映像を組み合わせることで、ライフスタイル表現と洗練された商品ビジュアルを融合した、映画のようなテレビ CM スタイルのコンテンツを作成できます。
このモデルは、シーン全体を再生成するのではなく、動画内の特定のオブジェクトや細部を正確に調整できます。ユーザーは元のカメラワーク、フレーム構成、ビジュアルスタイルを維持しながら、特定の要素の変更を依頼できるため、反復作業の効率が向上します。
以前のモデルと比較して、Gemini Omni は入力の柔軟性、生成時間、シーンの一貫性、出力品質において改善を示しています。
Gemini Omni は、テキストや画像プロンプトに加えて、動画クリップ、音声、テンプレートを参照素材としてサポートします。ユーザーはクリエイティブな意図を形式ごとに分けることなく、単一の制作プロセス内で異なる入力タイプを組み合わせることができます。
生成される動画の長さは約 15〜30 秒に達すると見込まれ、比較的滑らかなペースとトランジションを備えています。フレーム間の一貫性については、以前のバージョンと比べて、キャラクターの同一性、シーンの細部、環境要素を維持する能力が向上し、オブジェクトの持続性や複数キャラクターの相互作用の安定性も改善されています。
このモデルは、テキスト説明を通じてカメラの動き、フレーミング、ペースを比較的精密に制御でき、単一シーン内で複数アングルへの移行も実現できます。たとえば、キャラクターの外見や環境の一貫性を保ちながら、正面視点から横顔へ切り替えることができます。
Gemini Omni は、キャラクターの会話、環境音、効果音など、映像の雰囲気に合ったシーン音声を生成できます。アバター生成では、参照画像に基づいて顔の特徴と同一性の一貫性を維持し、音声内容に合わせたリップシンクや表情の変化を実現できます。
このモデルは、迅速な動画生成や調整を必要とする複数の分野に適用でき、さまざまな背景を持つユーザーが動画制作のハードルを下げるのに役立ちます。
広告プロトタイプの作成、プリビジュアライゼーション、商業用ショートフィルム制作に適しています。クリエイターはテキストを通じてコンセプト実証動画を素早く生成し、複数回の反復でカメラ表現やビジュアルスタイルを調整して、プリプロダクション段階の意思決定を支援できます。
ショート動画やチャンネルコンテンツ制作に適用できます。このモデルは、一貫したキャラクターとビジュアルスタイルで複数セグメントの動画生成をサポートし、まとまりのあるシリーズコンテンツの制作を容易にします。また、生成音声は会話要件にも対応できます。
商品デモ動画やブランドコンテンツ制作に利用できます。自然言語の説明を通じて、ユーザーはフレーム内の商品表現、シーンの雰囲気、ビジュアルトーンを調整でき、クリエイティブな構想から最終出力までのサイクルを短縮できます。
解説動画、操作デモ、教育コンテンツ制作に適しています。このモデルはテキストや数式の論理を維持する能力が向上しており、黒板での導出や段階的なデモンストレーションを含む映像を生成できます。複数アングルのカメラ切り替えも、特定の操作詳細を示すのに役立ちます。
Twitter で Gemini Omni をフォローして、最新のコミュニティ作品、機能アップデート、実際の動画ストーリーをご覧ください。
Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ?? direct link for those who believes otherwise in comments
Sample video and early feedback 👀 > I won’t lie, this is one of the best video models I have seen, maybe not *the* best, but a really strong performance. I was particularly impressed by the prompt adherence (except for the one shot with the missing centerpiece), the model
Google will showcase Omni at Google I/O 2026 (May 19–20). Excited to see how this next-generation multimodal model advances AI-driven video creation and editing workflows. video by AIDRIVING #geminiomni
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model,
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new model also does a good job of removing watermarks from videos.