Gemini Omni هو نموذج متطور متعدد الوسائط لتوليد الفيديو طورته Google DeepMind. يتيح إنشاء مقاطع الفيديو وتحريرها وإعادة مزجها بمدخلات مرنة مثل النصوص والصور ومقاطع الفيديو والصوت. وبفضل قدراته المتقدمة في اتساق المشاهد والتحكم بالكاميرا وتوليد الصوت، يناسب Gemini Omni الإعلانات وإنشاء المحتوى وإنتاج مقاطع الفيديو التعليمية.
يعالج Gemini Omni تنسيقات إدخال متعددة لتوليد محتوى فيديو مناسب. فعلى سبيل المثال، عند تزويده بصورة لغروب ريفي بأسلوب الأنمي، يمكن للنموذج إنتاج فيديو يحافظ على التكوين الأصلي وتصميم الشخصية ولوحة الألوان، مع إضافة حركة طبيعية خفيفة فقط مثل نسيم لطيف يحرك الفستان والشعر ودوار الشمس، إلى جانب جسيمات عائمة وسحب تتحرك ببطء. وفي مثال آخر، عند تزويده بمقطع فيديو لشخص يقود السيارة مع تعليمات نصية مرافقة، يستطيع النموذج استبدال الشخصية بشخصية محددة مع الحفاظ على حركة المركبة وبيئة الخلفية.
يعالج Gemini Omni تنسيقات إدخال متعددة لتوليد محتوى فيديو مناسب. فعلى سبيل المثال، عند تزويده بصورة لغروب ريفي بأسلوب الأنمي، يمكن للنموذج إنتاج فيديو يحافظ على التكوين الأصلي وتصميم الشخصية ولوحة الألوان، مع إضافة حركة طبيعية خفيفة فقط مثل نسيم لطيف يحرك الفستان والشعر ودوار الشمس، إلى جانب جسيمات عائمة وسحب تتحرك ببطء. وفي مثال آخر، عند تزويده بمقطع فيديو لشخص يقود السيارة مع تعليمات نصية مرافقة، يستطيع النموذج استبدال الشخصية بشخصية محددة مع الحفاظ على حركة المركبة وبيئة الخلفية.
جرّبه الآنيدمج Gemini Omni إشارات إدخال متعددة في تعليمات إبداعية موحدة، مما يسمح للمستخدمين بإكمال توليد الفيديو وتعديلاته ضمن سير عمل واحد.
يقبل Gemini Omni النصوص والصور ومقاطع الفيديو والصوت كمراجع إدخال، ويفسرها كإرشادات إبداعية مترابطة. يمكن للمستخدمين وصف الأفكار عبر النص، وتحديد الأنماط البصرية بالصور، واقتراح الحركة باستخدام مقاطع الفيديو، وتوجيه النبرة العامة بالصوت. يدمج النموذج هذه الإشارات لتوليد محتوى فيديو يتوافق نسبيًا مع نية المستخدم.
يمكن للمستخدمين تعديل محتوى فيديو موجود عبر أوصاف نصية دون ضبط الجداول الزمنية يدويًا أو إعادة التحرير من البداية. على سبيل المثال، تتيح تعليمات مثل "remove the specified logo from the frame" أو "replace the spaghetti on both plates with creamy pumpkin soup while keeping everything else unchanged" للنموذج تنفيذ تعديلات محددة مع الحفاظ على التكوين الأصلي والحركة والأسلوب البصري.
استنادًا إلى مقاطع فيديو موجودة، يمكن للمستخدمين توليد إصدارات جديدة عبر تعليمات نصية دون إعادة البناء من البداية. على سبيل المثال، يمكن أن يؤدي دمج مقطع "person walking by the sea" مع لقطات منتج إلى محتوى بأسلوب إعلان تلفزيوني سينمائي يمزج بين عرض نمط الحياة والمرئيات المصقولة للمنتج.
يدعم النموذج إجراء تعديلات دقيقة على عناصر أو تفاصيل محددة داخل الفيديو بدلًا من إعادة توليد المشهد بالكامل. يمكن للمستخدمين طلب تعديلات لعناصر معينة مع الحفاظ على حركة الكاميرا الأصلية وتكوين الإطار والأسلوب البصري، مما يحسن كفاءة التكرار والتحسين.
مقارنة بالنماذج السابقة، يُظهر Gemini Omni تحسينات في مرونة الإدخال ومدة التوليد واتساق المشاهد وجودة المخرجات.
إلى جانب مطالبات النص والصور، يدعم Gemini Omni مقاطع الفيديو والصوت والقوالب كمواد مرجعية. يمكن للمستخدمين الجمع بين أنواع إدخال مختلفة ضمن عملية إبداعية واحدة دون فصل النية الإبداعية حسب التنسيق.
من المتوقع أن يصل طول الفيديو المولّد إلى نحو 15 إلى 30 ثانية، مع إيقاع وانتقالات سلسة نسبيًا. وفي ما يتعلق بالاتساق بين الإطارات، يُظهر النموذج قدرة محسّنة على الحفاظ على هوية الشخصية وتفاصيل المشهد والعناصر البيئية، مع تحسن في ثبات الكائنات واستقرار تفاعل عدة شخصيات مقارنة بالإصدارات السابقة.
يدعم النموذج تحكمًا دقيقًا نسبيًا في حركة الكاميرا والتأطير والإيقاع من خلال الأوصاف النصية، ويمكنه تحقيق انتقالات متعددة الزوايا داخل مشهد واحد. فعلى سبيل المثال، يمكنه الانتقال من منظور أمامي إلى لقطة جانبية مع الحفاظ على مظهر الشخصية والبيئة بشكل متسق.
يمكن لـ Gemini Omni توليد صوت للمشهد متوافق مع الأجواء البصرية، بما في ذلك حوار الشخصيات والصوت المحيط والمؤثرات الصوتية. وفي توليد الصور الرمزية، يستطيع النموذج الحفاظ على ملامح الوجه واتساق الهوية استنادًا إلى الصور المرجعية، مع مزامنة الشفاه وتغيّرات تعابير الوجه بما يتوافق مع محتوى الصوت.
ينطبق النموذج على مجالات متعددة تتطلب توليد فيديو سريعًا أو تعديله، مما يساعد المستخدمين من خلفيات مختلفة على تقليل عوائق إنتاج الفيديو.
مناسب لإنشاء نماذج أولية للإعلانات، والتصور المسبق، وإنتاج الأفلام التجارية القصيرة. يمكن للمبدعين توليد مقاطع إثبات مفهوم بسرعة عبر النصوص، مع تعديل لغة الكاميرا والأسلوب البصري عبر تكرارات متعددة لدعم قرارات ما قبل الإنتاج.
يناسب إنشاء مقاطع الفيديو القصيرة ومحتوى القنوات. يدعم النموذج توليد فيديو متعدد المقاطع مع شخصيات وأنماط بصرية متسقة، مما يسهل إنشاء محتوى سلاسل مترابط، بينما يمكن للصوت المولّد تلبية متطلبات الحوار.
يمكن استخدامه لفيديوهات عرض المنتجات وإنتاج محتوى العلامات التجارية. من خلال أوصاف باللغة الطبيعية، يستطيع المستخدمون ضبط عرض المنتج وأجواء المشهد والنبرة البصرية داخل الإطار، مما يقلص الدورة من تصور الفكرة الإبداعية إلى الناتج النهائي.
مناسب لمقاطع الشرح وعروض التشغيل وإنتاج المحتوى التعليمي. يُظهر النموذج قدرة محسّنة في الحفاظ على منطق النصوص والصيغ، وقادر على توليد لقطات تتضمن اشتقاقات على السبورة وعروضًا خطوة بخطوة. كما يساعد تبديل الكاميرا متعدد الزوايا في عرض تفاصيل تشغيل محددة.
تابع Gemini Omni على Twitter للاطلاع على أحدث إبداعات المجتمع وتحديثات الميزات وقصص الفيديو الواقعية.
Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ?? direct link for those who believes otherwise in comments
Sample video and early feedback 👀 > I won’t lie, this is one of the best video models I have seen, maybe not *the* best, but a really strong performance. I was particularly impressed by the prompt adherence (except for the one shot with the missing centerpiece), the model
Google will showcase Omni at Google I/O 2026 (May 19–20). Excited to see how this next-generation multimodal model advances AI-driven video creation and editing workflows. video by AIDRIVING #geminiomni
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model,
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new model also does a good job of removing watermarks from videos.