七嘴八舌分不清誰講話?Google靠AI分辨誰開口

▲七嘴八舌分不清誰講話?Google靠AI分辨誰開口(圖/翻攝 Google)

▲Google 訓練 AI 依據畫面和聲音判斷說話的人。(圖/翻攝 Google)

 記者黃肇祥/綜合報導

人類可以在吵雜的人群中,依據聲音傳來的方向辨別說話的人,但電腦可就沒有這麼厲害了,不過 Google 今天公開一項技術,讓 AI 在混雜的影片中,分辨現在開口說話的對象,並且將每一個人的聲音拆開成為獨立音檔,這項技術除了有望改善 YouTube 的字幕功能外,也能提升多人視訊對話的品質。

Google 藉由一段表演秀演片展示研究成果,AI 會將聲音元素與視覺畫面結合起來進行判斷,簡單來說,當影片中左邊的人在進行對話時,他的嘴巴應該要產生對應的開闔動作,AI 藉由捕捉肢體細節來判斷現在說話的人物是誰,結著再透過隔離單一聲音訊號並加強、其他聲音降低,完成獨立單一音源的工作。

除了展示隔絕聲音的技術外,Google 實際示範 AI 與 YouTube 目前的自動字幕的互動狀況,從上面的影片中我們可以發現,第一段沒有運用 AI 將聲音區隔的字幕是無法閱讀理解意思的,兩個人的話都被同時收錄在字幕之中組成意義不明的句子,若能將音源拆開來進行字幕分辨,這項技術未來有機會幫 YouTube 添加雙軌道的字幕顯示。

Google 特別提到,他們認為這項功能在視訊會議上能有所貢獻,期望技術能廣泛運用在 Google 各項產品之中。若依據 Google 的論述,Hangouts、Duo 是有可能使用這項技術的產品名單,在七嘴八舌的視訊會議中,藉由 AI 強化說話者的音量並隔絕雜音,會帶來更好的服務體驗。

12/03 全台詐欺最新數據

更多新聞
464 3 5254 損失金額(元) 更多新聞

※ 資料來源:內政部警政署165打詐儀錶板

分享給朋友:

追蹤我們:

※本文版權所有,非經授權,不得轉載。[ ETtoday著作權聲明 ]

3C家電熱門新聞

iPhone 17 Pro驚現相機降級

戀愛兔擊敗吉伊卡哇成貼圖冠軍

蘋果將iOS 26設為「主動推薦」

三星「內部喬不攏」S26恐大漲 

iPhone SE正式「壞了不修」 蘋果淘汰8款經典機種

美光宣布退出Crucial消費型業務

Photoshop網頁版推限時免費活動

大改版倒數!LINE Pay Money5重點一次看

相機只排第五!全球票選手機最重要功能曝

AI與多摺設計成2026摺疊機核心戰場

2025App Store Awards獲獎名單

技嘉2025 AI電競筆電全陣容亮相

技嘉2025 AI電競筆電正式上市

陳華新代言這台筆電也太懂創作者

相關新聞

關鍵字:

讀者迴響

熱門新聞

最夯影音

更多

熱門快報

回到最上面