Gemini Omni — передовая мультимодальная модель генерации видео, разработанная Google DeepMind. Она позволяет создавать, редактировать и ремикшировать видео с гибкими входными данными, такими как текст, изображения, видеоклипы и аудио. Благодаря расширенным возможностям согласованности сцен, управления камерой и генерации аудио Gemini Omni подходит для рекламы, создания контента и производства обучающих видео.
Gemini Omni обрабатывает несколько форматов входных данных для генерации соответствующего видеоконтента. Например, если предоставить изображение заката в сельской местности в аниме-стиле, модель может создать видео, сохраняющее исходную композицию, дизайн персонажей и цветовую палитру, добавляя только едва заметное естественное движение, например легкий ветерок, колышущий платье, волосы и подсолнухи, а также парящие частицы и медленно движущиеся облака. В другом примере, получив видеоклип с человеком за рулем и сопроводительные текстовые инструкции, модель может заменить фигуру заданным персонажем, сохранив движение автомобиля и фоновую среду.
Gemini Omni обрабатывает несколько форматов входных данных для генерации соответствующего видеоконтента. Например, если предоставить изображение заката в сельской местности в аниме-стиле, модель может создать видео, сохраняющее исходную композицию, дизайн персонажей и цветовую палитру, добавляя только едва заметное естественное движение, например легкий ветерок, колышущий платье, волосы и подсолнухи, а также парящие частицы и медленно движущиеся облака. В другом примере, получив видеоклип с человеком за рулем и сопроводительные текстовые инструкции, модель может заменить фигуру заданным персонажем, сохранив движение автомобиля и фоновую среду.
Попробовать сейчасGemini Omni объединяет несколько входных сигналов в единые творческие инструкции, позволяя пользователям выполнять генерацию и корректировку видео в рамках одного рабочего процесса.
Gemini Omni принимает текст, изображения, видеоклипы и аудио в качестве входных референсов, интерпретируя их как взаимосвязанные творческие указания. Пользователи могут описывать концепции текстом, задавать визуальные стили изображениями, предлагать движение с помощью видеоклипов и направлять общий тон через аудио. Модель синтезирует эти сигналы для создания видеоконтента, который сравнительно точно соответствует намерениям пользователя.
Пользователи могут изменять существующий видеоконтент с помощью текстовых описаний без ручной настройки таймлайнов или повторного монтажа с нуля. Например, инструкции вроде "удалить указанный логотип из кадра" или "заменить спагетти на обеих тарелках кремовым тыквенным супом, оставив все остальное без изменений" позволяют модели выполнять целевые изменения, сохраняя исходную композицию, движение и визуальный стиль.
На основе существующих видеоклипов пользователи могут создавать новые версии с помощью текстовых инструкций без необходимости начинать с нуля. Например, объединение клипа "человек идет у моря" с видеоматериалами продукта может дать кинематографичный контент в стиле телевизионной рекламы, сочетающий лайфстайл-подачу с отполированной визуализацией продукта.
Модель поддерживает точную корректировку конкретных объектов или деталей в видео вместо полной регенерации всей сцены. Пользователи могут запрашивать изменения отдельных элементов, сохраняя исходное движение камеры, композицию кадра и визуальный стиль, что повышает эффективность итераций.
По сравнению с предыдущими моделями Gemini Omni демонстрирует улучшения в гибкости ввода, длительности генерации, согласованности сцен и качестве результата.
Помимо текстовых и графических промптов, Gemini Omni поддерживает видеоклипы, аудио и шаблоны в качестве референсных материалов. Пользователи могут объединять разные типы входных данных в одном творческом процессе, не разделяя творческий замысел по форматам.
Ожидается, что длина генерируемого видео будет достигать примерно 15–30 секунд с относительно плавным темпом и переходами. Что касается согласованности между кадрами, модель демонстрирует улучшенную способность сохранять идентичность персонажей, детали сцены и элементы окружения, а также повышенную устойчивость постоянства объектов и взаимодействия нескольких персонажей по сравнению с более ранними версиями.
Модель поддерживает относительно точное управление движением камеры, кадрированием и темпом через текстовые описания, а также может выполнять переходы между несколькими ракурсами в рамках одной сцены. Например, она может перейти от вида спереди к профилю сбоку, сохраняя согласованный внешний вид персонажа и окружение.
Gemini Omni может генерировать звук сцены, соответствующий визуальной атмосфере, включая диалоги персонажей, фоновое звучание и звуковые эффекты. При генерации аватаров модель может сохранять черты лица и согласованность идентичности на основе референсных изображений, синхронизируя движения губ и изменения выражения лица с голосовым контентом.
Модель применима в нескольких областях, где требуется быстрая генерация или корректировка видео, помогая пользователям с разным опытом снижать барьеры видеопроизводства.
Подходит для создания рекламных прототипов, предварительной визуализации и производства коротких коммерческих роликов. Создатели могут быстро генерировать proof-of-concept видео с помощью текста, корректируя язык камеры и визуальный стиль в нескольких итерациях для поддержки решений на этапе препродакшена.
Применимо для создания коротких видео и контента для каналов. Модель поддерживает генерацию многосегментных видео с согласованными персонажами и визуальными стилями, облегчая создание связного серийного контента, а генерируемое аудио может учитывать требования к диалогам.
Можно использовать для демонстрационных видео продуктов и производства брендированного контента. Через описания на естественном языке пользователи могут корректировать презентацию продукта, атмосферу сцены и визуальный тон внутри кадра, сокращая цикл от творческой концепции до финального результата.
Подходит для объясняющих видео, демонстраций операций и производства учебного контента. Модель показывает улучшенную способность сохранять логику текста и формул, генерируя материалы, включающие выводы на доске и пошаговые демонстрации. Переключение между несколькими ракурсами также помогает показывать конкретные операционные детали.
Следите за Gemini Omni в Twitter, чтобы видеть новейшие работы сообщества, обновления функций и реальные видеоистории.
Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ?? direct link for those who believes otherwise in comments
Sample video and early feedback 👀 > I won’t lie, this is one of the best video models I have seen, maybe not *the* best, but a really strong performance. I was particularly impressed by the prompt adherence (except for the one shot with the missing centerpiece), the model
Google will showcase Omni at Google I/O 2026 (May 19–20). Excited to see how this next-generation multimodal model advances AI-driven video creation and editing workflows. video by AIDRIVING #geminiomni
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model,
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new model also does a good job of removing watermarks from videos.