Gemini Omni è un modello multimodale all'avanguardia per la generazione video sviluppato da Google DeepMind. Consente la creazione, la modifica e il remix di video con input flessibili come testo, immagini, clip video e audio. Grazie a funzionalità avanzate di coerenza delle scene, controllo della camera e generazione audio, Gemini Omni è adatto alla pubblicità, alla creazione di contenuti e alla produzione di video didattici.
Gemini Omni elabora più formati di input per generare contenuti video corrispondenti. Per esempio, quando riceve un'immagine di tramonto in campagna in stile anime, il modello può produrre un video che mantiene la composizione originale, il character design e la palette cromatica, aggiungendo solo movimenti naturali delicati come una brezza leggera che muove vestito, capelli e girasoli, insieme a particelle fluttuanti e nuvole che si muovono lentamente. In un altro esempio, dato un clip video di una persona alla guida con istruzioni testuali di accompagnamento, il modello può sostituire la figura con un personaggio specificato preservando il movimento del veicolo e l'ambiente di sfondo.
Gemini Omni elabora più formati di input per generare contenuti video corrispondenti. Per esempio, quando riceve un'immagine di tramonto in campagna in stile anime, il modello può produrre un video che mantiene la composizione originale, il character design e la palette cromatica, aggiungendo solo movimenti naturali delicati come una brezza leggera che muove vestito, capelli e girasoli, insieme a particelle fluttuanti e nuvole che si muovono lentamente. In un altro esempio, dato un clip video di una persona alla guida con istruzioni testuali di accompagnamento, il modello può sostituire la figura con un personaggio specificato preservando il movimento del veicolo e l'ambiente di sfondo.
Provalo oraGemini Omni integra più segnali di input in istruzioni creative unificate, consentendo agli utenti di completare generazione video e regolazioni in un unico flusso di lavoro.
Gemini Omni accetta testo, immagini, clip video e audio come riferimenti di input, interpretandoli come direttive creative interconnesse. Gli utenti possono descrivere concetti tramite testo, definire stili visivi con immagini, suggerire il movimento usando clip video e guidare il tono complessivo con l'audio. Il modello sintetizza questi segnali per generare contenuti video relativamente allineati all'intento dell'utente.
Gli utenti possono modificare contenuti video esistenti tramite descrizioni testuali senza regolare manualmente le timeline o rimontare tutto da zero. Per esempio, istruzioni come "remove the specified logo from the frame" o "replace the spaghetti on both plates with creamy pumpkin soup while keeping everything else unchanged" consentono al modello di eseguire modifiche mirate preservando composizione originale, movimento e stile visivo.
Partendo da clip video esistenti, gli utenti possono generare nuove versioni tramite istruzioni testuali senza ricostruire tutto dall'inizio. Per esempio, combinare una clip di una "person walking by the sea" con riprese di prodotto può produrre contenuti in stile spot televisivo cinematografico che uniscono presentazione lifestyle e immagini di prodotto rifinite.
Il modello supporta regolazioni precise di oggetti o dettagli specifici all'interno di un video invece di rigenerare l'intera scena. Gli utenti possono richiedere modifiche a elementi particolari mantenendo il movimento originale della camera, la composizione dell'inquadratura e lo stile visivo, migliorando l'efficienza dell'iterazione.
Rispetto ai modelli precedenti, Gemini Omni mostra miglioramenti nella flessibilità degli input, nella durata della generazione, nella coerenza delle scene e nella qualità dell'output.
Oltre ai prompt testuali e visivi, Gemini Omni supporta clip video, audio e template come materiali di riferimento. Gli utenti possono combinare diversi tipi di input in un unico processo creativo senza separare l'intento creativo per formato.
La durata dei video generati dovrebbe raggiungere circa 15-30 secondi, con ritmo e transizioni relativamente fluidi. Per quanto riguarda la coerenza tra i fotogrammi, il modello mostra una capacità superiore di mantenere identità dei personaggi, dettagli della scena ed elementi ambientali, con permanenza degli oggetti e stabilità dell'interazione tra più personaggi migliorate rispetto alle versioni precedenti.
Il modello supporta un controllo relativamente preciso del movimento della camera, dell'inquadratura e del ritmo tramite descrizioni testuali, e può ottenere transizioni multi-angolo all'interno di una singola scena. Per esempio, può passare da una vista frontale a un profilo laterale mantenendo aspetto del personaggio e ambiente coerenti.
Gemini Omni può generare audio di scena abbinato all'atmosfera visiva, inclusi dialoghi dei personaggi, suono ambientale ed effetti sonori. Nella generazione di avatar, il modello può mantenere caratteristiche facciali e coerenza dell'identità basandosi su immagini di riferimento, con sincronizzazione labiale e cambiamenti dell'espressione facciale allineati al contenuto vocale.
Il modello si applica a più campi che richiedono generazione o regolazione rapida di video, aiutando utenti con background diversi a ridurre le barriere della produzione video.
Adatto alla creazione di prototipi pubblicitari, alla pre-visualizzazione e alla produzione di cortometraggi commerciali. I creator possono generare rapidamente video proof-of-concept tramite testo, regolando linguaggio della camera e stile visivo attraverso più iterazioni per supportare le decisioni di pre-produzione.
Applicabile alla creazione di video brevi e contenuti per canali. Il modello supporta la generazione di video multi-segmento con personaggi e stili visivi coerenti, facilitando la creazione di contenuti seriali coerenti, mentre l'audio generato può soddisfare requisiti di dialogo.
Utilizzabile per video dimostrativi di prodotto e produzione di contenuti di brand. Tramite descrizioni in linguaggio naturale, gli utenti possono regolare presentazione del prodotto, atmosfera della scena e tono visivo all'interno dell'inquadratura, accorciando il ciclo dall'ideazione creativa all'output finale.
Adatto a video esplicativi, dimostrazioni operative e produzione di contenuti didattici. Il modello mostra una capacità migliorata di mantenere logica testuale e formule, ed è in grado di generare filmati che includono derivazioni alla lavagna e dimostrazioni passo passo. Anche il cambio di camera multi-angolo aiuta a mostrare dettagli operativi specifici.
Segui Gemini Omni su Twitter per vedere le ultime creazioni della community, gli aggiornamenti delle funzionalità e storie video reali.
Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ?? direct link for those who believes otherwise in comments
Sample video and early feedback 👀 > I won’t lie, this is one of the best video models I have seen, maybe not *the* best, but a really strong performance. I was particularly impressed by the prompt adherence (except for the one shot with the missing centerpiece), the model
Google will showcase Omni at Google I/O 2026 (May 19–20). Excited to see how this next-generation multimodal model advances AI-driven video creation and editing workflows. video by AIDRIVING #geminiomni
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model,
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new model also does a good job of removing watermarks from videos.