
記者吳立言/綜合報導
Google DeepMind 執行長哈薩比斯(Demis Hassabis)在 Google I/O 2026 活動現場正式揭曉全新影片生成模型「Gemini Omni」,並強調未來目標是實現「任何輸入生成任何輸出(anything from any input)」的多模態 AI 系統。
Gemini Omni 建立於 Google 長期投入的「世界模型(world models)」技術之上,除了支援影片生成,也導入更進一步的語音互動式編輯能力,使用者可直接透過對話修改角色、背景與畫面元素。首款版本「Gemini Omni Flash」預計今年夏季推出。
主打語音編輯 影片內容可直接對話修改
Google 展示的內容顯示,Gemini Omni 不再只是單純文字生成影片,而是進一步整合語音、多模態理解與場景控制能力。使用者可透過口語指令,即時調整影片中的人物、背景甚至鏡頭內容,朝更自然的 AI 創作流程邁進。
哈薩比斯再談 AGI 稱距離只剩幾年
活動中,哈薩比斯再度提到 AGI(通用人工智慧)發展時程,表示距離真正的 AGI 已「只剩幾年」。這也是他近年多次公開重申的觀點。Google 近來持續加碼多模態 AI 與影片生成技術,從 Gemini、Veo 系列到此次的 Omni,皆顯示其希望建立可理解現實世界、具備長時序推理能力的 AI 模型架構。
不過,目前展示影片雖然流暢,但實際開放使用後的效果仍有待驗證。去年 Veo 發表初期,就曾出現官方展示與一般用戶實測品質落差的情況。
讀者迴響