Gemini Omni เป็นโมเดลสร้างวิดีโอแบบมัลติโมดัลล้ำสมัยที่พัฒนาโดย Google DeepMind ช่วยให้สร้าง แก้ไข และรีมิกซ์วิดีโอได้ด้วยอินพุตที่ยืดหยุ่น เช่น ข้อความ รูปภาพ คลิปวิดีโอ และเสียง ด้วยความสามารถขั้นสูงด้านความสอดคล้องของฉาก การควบคุมกล้อง และการสร้างเสียง Gemini Omni จึงเหมาะสำหรับการโฆษณา การสร้างคอนเทนต์ และการผลิตวิดีโอเพื่อการศึกษา
Gemini Omni ประมวลผลอินพุตได้หลายรูปแบบเพื่อสร้างเนื้อหาวิดีโอที่สอดคล้องกัน ตัวอย่างเช่น เมื่อให้ภาพพระอาทิตย์ตกในชนบทสไตล์อนิเมะ โมเดลสามารถสร้างวิดีโอที่คงองค์ประกอบภาพเดิม การออกแบบตัวละคร และชุดสีไว้ โดยเพิ่มเพียงการเคลื่อนไหวตามธรรมชาติเล็กน้อย เช่น สายลมอ่อนๆ ที่พัดชุด ผม และดอกทานตะวัน พร้อมอนุภาคที่ล่องลอยและเมฆที่เคลื่อนช้าๆ อีกตัวอย่างหนึ่ง เมื่อให้คลิปวิดีโอของบุคคลที่กำลังขับรถพร้อมคำสั่งข้อความ โมเดลสามารถแทนที่บุคคลด้วยตัวละครที่ระบุไว้ พร้อมคงการเคลื่อนไหวของรถและสภาพแวดล้อมพื้นหลังไว้
Gemini Omni ประมวลผลอินพุตได้หลายรูปแบบเพื่อสร้างเนื้อหาวิดีโอที่สอดคล้องกัน ตัวอย่างเช่น เมื่อให้ภาพพระอาทิตย์ตกในชนบทสไตล์อนิเมะ โมเดลสามารถสร้างวิดีโอที่คงองค์ประกอบภาพเดิม การออกแบบตัวละคร และชุดสีไว้ โดยเพิ่มเพียงการเคลื่อนไหวตามธรรมชาติเล็กน้อย เช่น สายลมอ่อนๆ ที่พัดชุด ผม และดอกทานตะวัน พร้อมอนุภาคที่ล่องลอยและเมฆที่เคลื่อนช้าๆ อีกตัวอย่างหนึ่ง เมื่อให้คลิปวิดีโอของบุคคลที่กำลังขับรถพร้อมคำสั่งข้อความ โมเดลสามารถแทนที่บุคคลด้วยตัวละครที่ระบุไว้ พร้อมคงการเคลื่อนไหวของรถและสภาพแวดล้อมพื้นหลังไว้
ลองใช้ตอนนี้Gemini Omni ผสานสัญญาณอินพุตหลายประเภทเข้ากับคำสั่งสร้างสรรค์แบบรวมศูนย์ ช่วยให้ผู้ใช้สร้างและปรับแต่งวิดีโอได้ภายในเวิร์กโฟลว์เดียว
Gemini Omni รองรับข้อความ รูปภาพ คลิปวิดีโอ และเสียงเป็นข้อมูลอ้างอิง โดยตีความสิ่งเหล่านี้เป็นคำสั่งสร้างสรรค์ที่เชื่อมโยงกัน ผู้ใช้สามารถอธิบายแนวคิดผ่านข้อความ กำหนดสไตล์ภาพด้วยรูปภาพ เสนอการเคลื่อนไหวด้วยคลิปวิดีโอ และชี้นำโทนโดยรวมด้วยเสียง โมเดลจะสังเคราะห์สัญญาณเหล่านี้เพื่อสร้างเนื้อหาวิดีโอที่สอดคล้องกับเจตนาของผู้ใช้ได้ค่อนข้างใกล้เคียง
ผู้ใช้สามารถปรับแก้เนื้อหาวิดีโอที่มีอยู่ผ่านคำอธิบายข้อความ โดยไม่ต้องปรับไทม์ไลน์หรือแก้ไขใหม่ตั้งแต่ต้นด้วยตนเอง ตัวอย่างเช่น คำสั่งอย่าง "remove the specified logo from the frame" หรือ "replace the spaghetti on both plates with creamy pumpkin soup while keeping everything else unchanged" ช่วยให้โมเดลทำการแก้ไขแบบเจาะจงได้ พร้อมคงองค์ประกอบภาพ การเคลื่อนไหว และสไตล์ภาพเดิมไว้
จากคลิปวิดีโอที่มีอยู่ ผู้ใช้สามารถสร้างเวอร์ชันใหม่ผ่านคำสั่งข้อความโดยไม่ต้องสร้างใหม่ตั้งแต่ต้น ตัวอย่างเช่น การรวมคลิป "person walking by the sea" เข้ากับฟุตเทจสินค้า อาจให้คอนเทนต์สไตล์โฆษณาโทรทัศน์แบบภาพยนตร์ที่ผสมผสานการนำเสนอไลฟ์สไตล์กับภาพสินค้าที่ประณีต
โมเดลรองรับการปรับแต่งวัตถุหรือรายละเอียดเฉพาะภายในวิดีโออย่างแม่นยำ แทนที่จะสร้างทั้งฉากใหม่ ผู้ใช้สามารถขอแก้ไของค์ประกอบเฉพาะได้ พร้อมคงการเคลื่อนไหวของกล้อง องค์ประกอบเฟรม และสไตล์ภาพเดิมไว้ ช่วยเพิ่มประสิทธิภาพในการทำซ้ำและปรับปรุงงาน
เมื่อเทียบกับโมเดลก่อนหน้า Gemini Omni แสดงให้เห็นถึงการปรับปรุงด้านความยืดหยุ่นของอินพุต ระยะเวลาการสร้าง ความสอดคล้องของฉาก และคุณภาพเอาต์พุต
นอกเหนือจากพรอมต์ข้อความและรูปภาพ Gemini Omni ยังรองรับคลิปวิดีโอ เสียง และเทมเพลตเป็นวัสดุอ้างอิง ผู้ใช้สามารถรวมประเภทอินพุตต่างๆ ภายในกระบวนการสร้างสรรค์เดียวได้ โดยไม่ต้องแยกเจตนาสร้างสรรค์ตามรูปแบบไฟล์
คาดว่าความยาววิดีโอที่สร้างขึ้นจะอยู่ที่ประมาณ 15 ถึง 30 วินาที พร้อมจังหวะและการเปลี่ยนฉากที่ค่อนข้างลื่นไหล ในด้านความสอดคล้องข้ามเฟรม โมเดลแสดงความสามารถที่ดีขึ้นในการรักษาเอกลักษณ์ตัวละคร รายละเอียดฉาก และองค์ประกอบสภาพแวดล้อม โดยมีความคงอยู่ของวัตถุและเสถียรภาพของปฏิสัมพันธ์ระหว่างตัวละครหลายตัวที่ดีขึ้นเมื่อเทียบกับเวอร์ชันก่อนหน้า
โมเดลรองรับการควบคุมการเคลื่อนไหวของกล้อง การจัดเฟรม และจังหวะผ่านคำอธิบายข้อความได้ค่อนข้างแม่นยำ และสามารถทำการเปลี่ยนมุมหลายมุมภายในฉากเดียวได้ ตัวอย่างเช่น สามารถเปลี่ยนจากมุมมองด้านหน้าไปเป็นมุมด้านข้าง พร้อมรักษารูปลักษณ์ตัวละครและสภาพแวดล้อมให้สอดคล้องกัน
Gemini Omni สามารถสร้างเสียงประกอบฉากที่เข้ากับบรรยากาศภาพ รวมถึงบทสนทนาของตัวละคร เสียงแวดล้อม และเอฟเฟกต์เสียง ในการสร้างอวตาร โมเดลสามารถรักษาลักษณะใบหน้าและความสอดคล้องของตัวตนตามภาพอ้างอิง พร้อมการซิงค์ริมฝีปากและการเปลี่ยนสีหน้าที่สอดคล้องกับเนื้อหาเสียง
โมเดลนี้นำไปใช้ได้กับหลายสาขาที่ต้องการสร้างหรือปรับแต่งวิดีโออย่างรวดเร็ว ช่วยให้ผู้ใช้จากพื้นฐานที่หลากหลายลดอุปสรรคในการผลิตวิดีโอ
เหมาะสำหรับการสร้างต้นแบบโฆษณา การทำพรีวิชวลไลเซชัน และการผลิตภาพยนตร์สั้นเชิงพาณิชย์ ครีเอเตอร์สามารถสร้างวิดีโอพิสูจน์แนวคิดได้อย่างรวดเร็วผ่านข้อความ โดยปรับภาษากล้องและสไตล์ภาพผ่านการทำซ้ำหลายรอบเพื่อช่วยในการตัดสินใจก่อนการผลิต
ใช้ได้กับการสร้างวิดีโอสั้นและคอนเทนต์สำหรับช่อง โมเดลรองรับการสร้างวิดีโอหลายช่วงที่มีตัวละครและสไตล์ภาพสอดคล้องกัน ช่วยให้สร้างคอนเทนต์แบบซีรีส์ที่ต่อเนื่องได้ง่ายขึ้น ขณะที่เสียงที่สร้างขึ้นสามารถรองรับความต้องการด้านบทสนทนาได้
สามารถใช้สำหรับวิดีโอสาธิตสินค้าและการผลิตคอนเทนต์แบรนด์ ผ่านคำอธิบายภาษาธรรมชาติ ผู้ใช้สามารถปรับการนำเสนอสินค้า บรรยากาศฉาก และโทนภาพภายในเฟรมได้ ช่วยลดระยะเวลาตั้งแต่แนวคิดสร้างสรรค์จนถึงผลงานสุดท้าย
เหมาะสำหรับวิดีโออธิบาย การสาธิตขั้นตอนการใช้งาน และการผลิตเนื้อหาการสอน โมเดลแสดงความสามารถที่ดีขึ้นในการรักษาตรรกะของข้อความและสูตร สามารถสร้างฟุตเทจที่รวมถึงการพิสูจน์หรือคำนวณบนกระดานดำและการสาธิตทีละขั้นตอน การสลับมุมกล้องหลายมุมยังช่วยแสดงรายละเอียดการปฏิบัติเฉพาะได้ด้วย
ติดตาม Gemini Omni บน Twitter เพื่อดูผลงานล่าสุดจากชุมชน การอัปเดตฟีเจอร์ และเรื่องราววิดีโอจากการใช้งานจริง
Holllllyyyyyyyy @GeminiApp cooked 😳😳 🚨 Gemini Omni: New video model Here is the first output and see the text coherence , if this is not nano banana moment of video then what is ?? direct link for those who believes otherwise in comments
Sample video and early feedback 👀 > I won’t lie, this is one of the best video models I have seen, maybe not *the* best, but a really strong performance. I was particularly impressed by the prompt adherence (except for the one shot with the missing centerpiece), the model
Google will showcase Omni at Google I/O 2026 (May 19–20). Excited to see how this next-generation multimodal model advances AI-driven video creation and editing workflows. video by AIDRIVING #geminiomni
GOOGLE 🔥: An upcoming Gemini Omni video model from Google is expected to be much more advanced in video editing, capable of completing tasks like removing watermarks, replacing objects in the video, and more. It is also likely that Google will release 2 versions of this model,
🫨Google is creating a new Omni model with good video editing. Veo4? The original is on the left. Edited right. The new model also does a good job of removing watermarks from videos.