阿里通義千問開源AI新模型　可藉由影片推理判斷「人類情緒」

▲▼阿里巴巴AI「通義千問」。（圖／翻攝阿里巴巴）

▲阿里巴巴「通義千問」AI大模型。（圖／翻攝阿里巴巴）

記者魏有德／綜合報導

阿里巴巴集團通義實驗室團隊11日宣佈開源R1-Omni模型，該模型結合強化學習與可驗證獎勵（RLVR）方法，專注於提升多模態情感識別任務中的推理能力和泛化性能。簡單來說，R1-Omni的特色在於推理能力上的提升。通過RLVR方法，AI能藉由聲音和影像對人類各種情緒做出判斷及識別。

▲▼阿里巴巴發表自研AI「通義千問」　將連接旗下所有產品。（圖／翻攝微博）

▲阿里巴巴「通義千問」　連接旗下所有產品。（圖／翻攝微博）

《IT之家》報導，隨著DeepSeek R1的推出，強化學習在大模型領域的潛力被進一步挖掘。Reinforcement Learning with Verifiable Reward（RLVR）方法的出現，為多模態任務提供了全新的優化思路，無論是幾何推理、視覺計數，還是經典圖像分類和物體檢測任務，RLVR 都展現出了顯著優於傳統監督微調（SFT）的效果。

據了解，R1-Omni在基於DeepSeek R1的基礎上，能更清楚地理解視覺和聽覺信息如何促進情緒識別，透過影片，能更加清楚辨別人類喜怒哀樂等情緒，並且給出詳細推理過程，成為電腦在理解人腦的強化學習模式。

阿里通義團隊選擇開源Omni模型HumanOmni-0.5B作為基礎模型，目前，已經開源出基本模型HumanOmni-0.5B、冷啓動模型EMER-SFT、直接在MAFW和DFEW訓練集上微調的模型MAFW-DFEW-SFT，以及最終模型R1-Omni。

每日新聞精選　免費訂閱《ETtoday電子報》