Gemini Omni adalah model generasi video multimodal mutakhir yang dikembangkan oleh Google DeepMind. Model ini memungkinkan pembuatan, pengeditan, dan remix video dengan input fleksibel seperti teks, gambar, klip video, dan audio. Dengan konsistensi adegan yang canggih, kontrol kamera, dan kemampuan generasi audio, Gemini Omni cocok untuk periklanan, pembuatan konten, dan produksi video edukasi.
Gemini Omni memproses berbagai format input untuk menghasilkan konten video yang sesuai. Misalnya, ketika diberikan gambar matahari terbenam pedesaan bergaya anime, model dapat menghasilkan video yang mempertahankan komposisi asli, desain karakter, dan palet warna, hanya menambahkan gerakan alami yang halus seperti angin sepoi-sepoi yang menggerakkan gaun, rambut, dan bunga matahari, bersama partikel yang melayang dan awan yang bergerak perlahan. Dalam contoh lain, dengan klip video seseorang yang sedang mengemudi disertai instruksi teks, model dapat mengganti sosok tersebut dengan karakter tertentu sambil mempertahankan gerakan kendaraan dan lingkungan latar belakang.
Gemini Omni memproses berbagai format input untuk menghasilkan konten video yang sesuai. Misalnya, ketika diberikan gambar matahari terbenam pedesaan bergaya anime, model dapat menghasilkan video yang mempertahankan komposisi asli, desain karakter, dan palet warna, hanya menambahkan gerakan alami yang halus seperti angin sepoi-sepoi yang menggerakkan gaun, rambut, dan bunga matahari, bersama partikel yang melayang dan awan yang bergerak perlahan. Dalam contoh lain, dengan klip video seseorang yang sedang mengemudi disertai instruksi teks, model dapat mengganti sosok tersebut dengan karakter tertentu sambil mempertahankan gerakan kendaraan dan lingkungan latar belakang.
Coba sekarangGemini Omni mengintegrasikan berbagai sinyal input menjadi instruksi kreatif terpadu, memungkinkan pengguna menyelesaikan generasi dan penyesuaian video dalam satu alur kerja.
Gemini Omni menerima teks, gambar, klip video, dan audio sebagai referensi input, lalu menafsirkannya sebagai arahan kreatif yang saling terhubung. Pengguna dapat mendeskripsikan konsep melalui teks, menentukan gaya visual dengan gambar, menyarankan gerakan menggunakan klip video, dan mengarahkan nuansa keseluruhan dengan audio. Model ini mensintesis sinyal-sinyal tersebut untuk menghasilkan konten video yang relatif selaras dengan niat pengguna.
Pengguna dapat memodifikasi konten video yang sudah ada melalui deskripsi teks tanpa menyesuaikan timeline secara manual atau mengedit ulang dari awal. Misalnya, instruksi seperti "hapus logo tertentu dari frame" atau "ganti spageti di kedua piring dengan sup labu krim sambil menjaga semua hal lain tetap sama" memungkinkan model melakukan modifikasi tertarget sambil mempertahankan komposisi, gerakan, dan gaya visual asli.
Berdasarkan klip video yang sudah ada, pengguna dapat membuat versi baru melalui instruksi teks tanpa membangun ulang dari awal. Misalnya, menggabungkan klip "orang berjalan di tepi laut" dengan cuplikan produk dapat menghasilkan konten bergaya iklan televisi sinematik yang memadukan presentasi gaya hidup dengan visual produk yang rapi.
Model ini mendukung penyesuaian presisi pada objek atau detail tertentu dalam video, alih-alih meregenerasi seluruh adegan. Pengguna dapat meminta modifikasi pada elemen tertentu sambil mempertahankan gerakan kamera, komposisi frame, dan gaya visual asli, sehingga meningkatkan efisiensi iterasi.
Dibandingkan model sebelumnya, Gemini Omni menunjukkan peningkatan dalam fleksibilitas input, durasi generasi, konsistensi adegan, dan kualitas output.
Selain prompt teks dan gambar, Gemini Omni mendukung klip video, audio, dan template sebagai materi referensi. Pengguna dapat menggabungkan berbagai jenis input dalam satu proses kreatif tanpa memisahkan niat kreatif berdasarkan format.
Panjang video yang dihasilkan diperkirakan mencapai sekitar 15 hingga 30 detik, dengan tempo dan transisi yang relatif mulus. Terkait konsistensi antar-frame, model menunjukkan kemampuan yang lebih baik dalam mempertahankan identitas karakter, detail adegan, dan elemen lingkungan, dengan peningkatan permanensi objek dan stabilitas interaksi multi-karakter dibandingkan versi sebelumnya.
Model ini mendukung kontrol yang relatif presisi atas gerakan kamera, framing, dan tempo melalui deskripsi teks, serta dapat menghasilkan transisi multi-sudut dalam satu adegan. Misalnya, model dapat berpindah dari tampilan depan ke profil samping sambil mempertahankan konsistensi penampilan karakter dan lingkungan.
Gemini Omni dapat menghasilkan audio adegan yang sesuai dengan atmosfer visual, termasuk dialog karakter, suara ambient, dan efek suara. Dalam generasi avatar, model dapat mempertahankan fitur wajah dan konsistensi identitas berdasarkan gambar referensi, dengan sinkronisasi bibir dan perubahan ekspresi wajah yang selaras dengan konten suara.
Model ini dapat diterapkan di berbagai bidang yang membutuhkan generasi atau penyesuaian video secara cepat, membantu pengguna dengan latar belakang beragam mengurangi hambatan produksi video.
Cocok untuk pembuatan prototipe iklan, pra-visualisasi, dan produksi film pendek komersial. Kreator dapat dengan cepat menghasilkan video proof-of-concept melalui teks, menyesuaikan bahasa kamera dan gaya visual dalam beberapa iterasi untuk membantu pengambilan keputusan pra-produksi.
Dapat diterapkan untuk pembuatan video pendek dan konten kanal. Model ini mendukung generasi video multi-segmen dengan karakter dan gaya visual yang konsisten, memfasilitasi pembuatan konten seri yang koheren, sementara audio yang dihasilkan dapat mengakomodasi kebutuhan dialog.
Dapat digunakan untuk video demonstrasi produk dan produksi konten merek. Melalui deskripsi bahasa alami, pengguna dapat menyesuaikan presentasi produk, atmosfer adegan, dan nuansa visual di dalam frame, sehingga memperpendek siklus dari konsepsi kreatif hingga output akhir.
Cocok untuk video penjelasan, demonstrasi operasional, dan produksi konten pembelajaran. Model ini menunjukkan kemampuan yang lebih baik dalam mempertahankan logika teks dan rumus, mampu menghasilkan rekaman yang mencakup penurunan rumus di papan tulis dan demonstrasi langkah demi langkah. Peralihan kamera multi-sudut juga membantu menampilkan detail operasional tertentu.
Ikuti Gemini Omni di Twitter untuk melihat kreasi komunitas terbaru, pembaruan fitur, dan kisah video dunia nyata.
Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ?? direct link for those who believes otherwise in comments
Sample video and early feedback 👀 > I won’t lie, this is one of the best video models I have seen, maybe not *the* best, but a really strong performance. I was particularly impressed by the prompt adherence (except for the one shot with the missing centerpiece), the model
Google will showcase Omni at Google I/O 2026 (May 19–20). Excited to see how this next-generation multimodal model advances AI-driven video creation and editing workflows. video by AIDRIVING #geminiomni
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model,
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new model also does a good job of removing watermarks from videos.