▲DeepSeek R1超越Meta與Anthropic,與Google Gemini並列全球AI榜第二。(圖/記者吳立言攝)
記者吳立言/綜合報導
人工智慧評測平台《Artificial Analysis》最新公佈的AI智能指數顯示,中國AI實驗室DeepSeek旗下旗艦模型R1的最新版本(R1-0528)表現大幅躍進,總分從60提升至68,與Google Gemini 2.5 Pro並列第二,穩居開源模型領域的領導地位。
此版本未變更DeepSeek V3/R1架構,仍為具備6710億參數、370億啟用參數的超大型模型,但透過後訓練(post-training)與強化學習技術大幅提升整體推理與程式生成能力。
根據評測細節,R1在以下項目表現最為亮眼:
AIME 2024(數學競賽):+21分
LiveCodeBench(程式生成):+15分
GPQA Diamond(科學推理):+10分
Humanity's Last Exam(綜合推理與知識):+6分
▲DeepSeek R1-0528透過後訓練大躍進,總分飆升至68。(圖/X@Artificial Analysis)
此外,R1-0528在執行該指數所涵蓋的七項評估時使用了9900萬個token,比原版的7100萬增加了40%,顯示其推理時「思考更久」,更具深度。儘管Google Gemini 2.5 Pro在token使用上仍高出30%,但R1已在多項指標與其並駕齊驅,甚至超越Meta的Llama 4 Maverick與xAI的Grok 3 mini。
此更新同時強化DeepSeek在程式設計領域的地位,R1現已在「人工分析程式設計指數(Artificial Analysis Coding Index)」與Gemini 2.5 Pro並列,僅次於OpenAI的o4-mini(高階)與o3。報告也指出,DeepSeek透過強化學習(Reinforcement Learning)進行後訓練,即使未擴大模型架構,也實現類似OpenAI自o1升級至o3時相當的智能成長幅度,展現極高的效率與潛力。
此番表現進一步鞏固中國AI實驗室在全球市場中的地位,與美國實驗室的差距持續縮小,人工智慧競賽的全球格局出現明顯轉變。
讀者迴響