Gemini Omni là một mô hình tạo video đa phương thức tiên tiến do Google DeepMind phát triển. Mô hình này cho phép tạo, chỉnh sửa và phối lại video với các đầu vào linh hoạt như văn bản, hình ảnh, đoạn video và âm thanh. Với khả năng duy trì tính nhất quán cảnh quay, điều khiển camera và tạo âm thanh nâng cao, Gemini Omni phù hợp cho quảng cáo, sáng tạo nội dung và sản xuất video giáo dục.
Gemini Omni xử lý nhiều định dạng đầu vào để tạo nội dung video tương ứng. Chẳng hạn, khi được cung cấp một hình ảnh hoàng hôn vùng quê theo phong cách anime, mô hình có thể tạo ra một video giữ nguyên bố cục ban đầu, thiết kế nhân vật và bảng màu, chỉ thêm các chuyển động tự nhiên tinh tế như làn gió nhẹ làm lay động váy, tóc và hoa hướng dương, cùng với các hạt trôi nổi và mây di chuyển chậm. Trong một ví dụ khác, khi nhận một đoạn video người đang lái xe kèm hướng dẫn bằng văn bản, mô hình có thể thay thế nhân vật bằng một nhân vật được chỉ định trong khi vẫn giữ nguyên chuyển động của xe và môi trường nền.
Gemini Omni xử lý nhiều định dạng đầu vào để tạo nội dung video tương ứng. Chẳng hạn, khi được cung cấp một hình ảnh hoàng hôn vùng quê theo phong cách anime, mô hình có thể tạo ra một video giữ nguyên bố cục ban đầu, thiết kế nhân vật và bảng màu, chỉ thêm các chuyển động tự nhiên tinh tế như làn gió nhẹ làm lay động váy, tóc và hoa hướng dương, cùng với các hạt trôi nổi và mây di chuyển chậm. Trong một ví dụ khác, khi nhận một đoạn video người đang lái xe kèm hướng dẫn bằng văn bản, mô hình có thể thay thế nhân vật bằng một nhân vật được chỉ định trong khi vẫn giữ nguyên chuyển động của xe và môi trường nền.
Thử ngayGemini Omni tích hợp nhiều tín hiệu đầu vào thành các chỉ dẫn sáng tạo thống nhất, cho phép người dùng hoàn tất việc tạo và điều chỉnh video trong một quy trình duy nhất.
Gemini Omni chấp nhận văn bản, hình ảnh, đoạn video và âm thanh làm tham chiếu đầu vào, diễn giải chúng như các chỉ dẫn sáng tạo có liên kết với nhau. Người dùng có thể mô tả ý tưởng bằng văn bản, xác định phong cách hình ảnh bằng ảnh, gợi ý chuyển động bằng đoạn video và định hướng sắc thái tổng thể bằng âm thanh. Mô hình tổng hợp các tín hiệu này để tạo nội dung video tương đối sát với ý định của người dùng.
Người dùng có thể chỉnh sửa nội dung video hiện có thông qua mô tả bằng văn bản mà không cần điều chỉnh dòng thời gian thủ công hoặc biên tập lại từ đầu. Ví dụ, các hướng dẫn như "xóa logo được chỉ định khỏi khung hình" hoặc "thay mì spaghetti trên cả hai đĩa bằng súp bí đỏ kem trong khi giữ nguyên mọi thứ khác" cho phép mô hình thực hiện các chỉnh sửa có mục tiêu trong khi vẫn giữ bố cục, chuyển động và phong cách hình ảnh ban đầu.
Dựa trên các đoạn video hiện có, người dùng có thể tạo phiên bản mới thông qua hướng dẫn bằng văn bản mà không cần dựng lại từ đầu. Ví dụ, kết hợp một đoạn clip "người đi bộ bên bờ biển" với cảnh quay sản phẩm có thể tạo ra nội dung theo phong cách quảng cáo truyền hình điện ảnh, hòa trộn phần trình bày phong cách sống với hình ảnh sản phẩm được trau chuốt.
Mô hình hỗ trợ điều chỉnh chính xác các đối tượng hoặc chi tiết cụ thể trong video thay vì tạo lại toàn bộ cảnh. Người dùng có thể yêu cầu chỉnh sửa các yếu tố cụ thể trong khi vẫn giữ chuyển động camera, bố cục khung hình và phong cách hình ảnh ban đầu, giúp nâng cao hiệu quả lặp lại chỉnh sửa.
So với các mô hình trước, Gemini Omni thể hiện những cải thiện về tính linh hoạt đầu vào, thời lượng tạo, tính nhất quán cảnh và chất lượng đầu ra.
Ngoài lời nhắc văn bản và hình ảnh, Gemini Omni hỗ trợ đoạn video, âm thanh và mẫu làm tài liệu tham chiếu. Người dùng có thể kết hợp nhiều loại đầu vào khác nhau trong một quy trình sáng tạo duy nhất mà không cần tách ý tưởng sáng tạo theo định dạng.
Thời lượng video được tạo dự kiến đạt khoảng 15 đến 30 giây, với nhịp độ và chuyển cảnh tương đối mượt mà. Về tính nhất quán giữa các khung hình, mô hình cho thấy khả năng nâng cao trong việc duy trì danh tính nhân vật, chi tiết cảnh và yếu tố môi trường, với tính bền vững của đối tượng và độ ổn định tương tác nhiều nhân vật được cải thiện so với các phiên bản trước.
Mô hình hỗ trợ kiểm soát tương đối chính xác chuyển động camera, bố cục khung hình và nhịp độ thông qua mô tả bằng văn bản, đồng thời có thể thực hiện chuyển đổi nhiều góc trong một cảnh duy nhất. Ví dụ, nó có thể chuyển từ góc nhìn chính diện sang góc nghiêng bên trong khi vẫn duy trì diện mạo nhân vật và môi trường nhất quán.
Gemini Omni có thể tạo âm thanh cảnh phù hợp với bầu không khí hình ảnh, bao gồm lời thoại nhân vật, âm thanh môi trường và hiệu ứng âm thanh. Trong tạo avatar, mô hình có thể duy trì đặc điểm khuôn mặt và tính nhất quán danh tính dựa trên hình ảnh tham chiếu, với đồng bộ khẩu hình và thay đổi biểu cảm khuôn mặt khớp với nội dung giọng nói.
Mô hình áp dụng cho nhiều lĩnh vực cần tạo hoặc điều chỉnh video nhanh chóng, giúp người dùng với nhiều nền tảng khác nhau giảm rào cản sản xuất video.
Phù hợp để tạo nguyên mẫu quảng cáo, tiền kỳ hình ảnh và sản xuất phim ngắn thương mại. Nhà sáng tạo có thể nhanh chóng tạo video chứng minh ý tưởng thông qua văn bản, điều chỉnh ngôn ngữ camera và phong cách hình ảnh qua nhiều lần lặp để hỗ trợ việc ra quyết định tiền sản xuất.
Áp dụng cho sáng tạo video ngắn và nội dung kênh. Mô hình hỗ trợ tạo video nhiều phân đoạn với nhân vật và phong cách hình ảnh nhất quán, giúp tạo nội dung chuỗi mạch lạc, trong khi âm thanh được tạo có thể đáp ứng yêu cầu hội thoại.
Có thể dùng cho video trình diễn sản phẩm và sản xuất nội dung thương hiệu. Thông qua mô tả bằng ngôn ngữ tự nhiên, người dùng có thể điều chỉnh cách trình bày sản phẩm, bầu không khí cảnh và tông hình ảnh trong khung hình, rút ngắn chu kỳ từ ý tưởng sáng tạo đến đầu ra cuối cùng.
Phù hợp cho video giải thích, trình diễn thao tác và sản xuất nội dung giảng dạy. Mô hình cho thấy khả năng cải thiện trong việc duy trì logic văn bản và công thức, có thể tạo cảnh quay bao gồm suy luận trên bảng đen và minh họa từng bước. Chuyển đổi camera nhiều góc cũng giúp hiển thị các chi tiết thao tác cụ thể.
Theo dõi Gemini Omni trên Twitter để xem các sáng tạo mới nhất của cộng đồng, cập nhật tính năng và những câu chuyện video thực tế.
Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ?? direct link for those who believes otherwise in comments
Sample video and early feedback 👀 > I won’t lie, this is one of the best video models I have seen, maybe not *the* best, but a really strong performance. I was particularly impressed by the prompt adherence (except for the one shot with the missing centerpiece), the model
Google will showcase Omni at Google I/O 2026 (May 19–20). Excited to see how this next-generation multimodal model advances AI-driven video creation and editing workflows. video by AIDRIVING #geminiomni
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model,
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new model also does a good job of removing watermarks from videos.