阿里通義千問開源AI新模型 可藉由影片推理判斷「人類情緒」

▲▼阿里巴巴AI「通義千問」。(圖/翻攝阿里巴巴)

▲阿里巴巴「通義千問」AI大模型。(圖/翻攝阿里巴巴)

記者魏有德/綜合報導

阿里巴巴集團通義實驗室團隊11日宣佈開源R1-Omni模型,該模型結合強化學習與可驗證獎勵(RLVR)方法,專注於提升多模態情感識別任務中的推理能力和泛化性能。簡單來說,R1-Omni的特色在於推理能力上的提升。通過RLVR方法,AI能藉由聲音和影像對人類各種情緒做出判斷及識別。

▲▼阿里巴巴發表自研AI「通義千問」 將連接旗下所有產品。(圖/翻攝微博)

▲阿里巴巴「通義千問」 連接旗下所有產品。(圖/翻攝微博)

《IT之家》報導,隨著DeepSeek R1的推出,強化學習在大模型領域的潛力被進一步挖掘。Reinforcement Learning with Verifiable Reward(RLVR)方法的出現,為多模態任務提供了全新的優化思路,無論是幾何推理、視覺計數,還是經典圖像分類和物體檢測任務,RLVR 都展現出了顯著優於傳統監督微調(SFT)的效果。

據了解,R1-Omni在基於DeepSeek R1的基礎上,能更清楚地理解視覺和聽覺信息如何促進情緒識別,透過影片,能更加清楚辨別人類喜怒哀樂等情緒,並且給出詳細推理過程,成為電腦在理解人腦的強化學習模式。

阿里通義團隊選擇開源Omni模型HumanOmni-0.5B作為基礎模型,目前,已經開源出基本模型HumanOmni-0.5B、冷啓動模型EMER-SFT、直接在MAFW和DFEW訓練集上微調的模型MAFW-DFEW-SFT,以及最終模型R1-Omni。

03/26 全台詐欺最新數據

更多新聞
634 2 6205 損失金額(元) 更多新聞

※ 資料來源:內政部警政署165打詐儀錶板

分享給朋友:

※本文版權所有,非經授權,不得轉載。[ ETtoday著作權聲明 ]

相關新聞

讀者迴響

熱門新聞

最夯影音

更多

熱門快報

回到最上面