全球AI排行榜變天　DeepSeek R1擠下Grok、Meta成最大黑馬

▲▼gemini,grok,deepseek,chatgpt。（圖／記者吳立言攝）

▲DeepSeek R1超越Meta與Anthropic，與Google Gemini並列全球AI榜第二。（圖／記者吳立言攝）

記者吳立言／綜合報導

人工智慧評測平台《Artificial Analysis》最新公佈的AI智能指數顯示，中國AI實驗室DeepSeek旗下旗艦模型R1的最新版本（R1-0528）表現大幅躍進，總分從60提升至68，與Google Gemini 2.5 Pro並列第二，穩居開源模型領域的領導地位。

此版本未變更DeepSeek V3/R1架構，仍為具備6710億參數、370億啟用參數的超大型模型，但透過後訓練（post-training）與強化學習技術大幅提升整體推理與程式生成能力。

根據評測細節，R1在以下項目表現最為亮眼：

AIME 2024（數學競賽）：+21分

LiveCodeBench（程式生成）：+15分

GPQA Diamond（科學推理）：+10分

Humanity's Last Exam（綜合推理與知識）：+6分

▲▼ 。（圖／X@Artificial Analysis）

▲DeepSeek R1-0528透過後訓練大躍進，總分飆升至68。（圖／X@Artificial Analysis）

此外，R1-0528在執行該指數所涵蓋的七項評估時使用了9900萬個token，比原版的7100萬增加了40%，顯示其推理時「思考更久」，更具深度。儘管Google Gemini 2.5 Pro在token使用上仍高出30%，但R1已在多項指標與其並駕齊驅，甚至超越Meta的Llama 4 Maverick與xAI的Grok 3 mini。

此更新同時強化DeepSeek在程式設計領域的地位，R1現已在「人工分析程式設計指數（Artificial Analysis Coding Index）」與Gemini 2.5 Pro並列，僅次於OpenAI的o4-mini（高階）與o3。報告也指出，DeepSeek透過強化學習（Reinforcement Learning）進行後訓練，即使未擴大模型架構，也實現類似OpenAI自o1升級至o3時相當的智能成長幅度，展現極高的效率與潛力。

此番表現進一步鞏固中國AI實驗室在全球市場中的地位，與美國實驗室的差距持續縮小，人工智慧競賽的全球格局出現明顯轉變。

每日新聞精選　免費訂閱《ETtoday電子報》