Gemini Omni登場!主打「萬物生成」、影片生成支援語音互動編輯

▲▼Google I/O 2026。(圖/Google)

記者吳立言/綜合報導

 Google DeepMind 執行長哈薩比斯(Demis Hassabis)在 Google I/O 2026 活動現場正式揭曉全新影片生成模型「Gemini Omni」,並強調未來目標是實現「任何輸入生成任何輸出(anything from any input)」的多模態 AI 系統。

Gemini Omni 建立於 Google 長期投入的「世界模型(world models)」技術之上,除了支援影片生成,也導入更進一步的語音互動式編輯能力,使用者可直接透過對話修改角色、背景與畫面元素。首款版本「Gemini Omni Flash」預計今年夏季推出。

主打語音編輯 影片內容可直接對話修改

Google 展示的內容顯示,Gemini Omni 不再只是單純文字生成影片,而是進一步整合語音、多模態理解與場景控制能力。使用者可透過口語指令,即時調整影片中的人物、背景甚至鏡頭內容,朝更自然的 AI 創作流程邁進。


哈薩比斯再談 AGI 稱距離只剩幾年

活動中,哈薩比斯再度提到 AGI(通用人工智慧)發展時程,表示距離真正的 AGI 已「只剩幾年」。這也是他近年多次公開重申的觀點。Google 近來持續加碼多模態 AI 與影片生成技術,從 Gemini、Veo 系列到此次的 Omni,皆顯示其希望建立可理解現實世界、具備長時序推理能力的 AI 模型架構。

不過,目前展示影片雖然流暢,但實際開放使用後的效果仍有待驗證。去年 Veo 發表初期,就曾出現官方展示與一般用戶實測品質落差的情況。

06/07 全台詐欺最新數據

更多新聞
327 0 9206 損失金額(元) 更多新聞

※ 資料來源:內政部警政署165打詐儀錶板

分享給朋友:

追蹤我們:

※本文版權所有,非經授權,不得轉載。[ ETtoday著作權聲明 ]

相關新聞

熱門新聞

最夯影音

更多

熱門快報

回到最上面