▲DeepSeek。(圖/路透社)
記者蔡紹堅/綜合報導
中國大陸AI新創公司深度求索(DeepSeek)29日發出升級公告,解釋DeepSeek-R1升級的具體情況。公告中提到,更新後的R1模型在數學、寫程式與通用邏輯等多個基準測評中取得當前大陸所有模型中首屈一指的優異成績,並且在整體表現上已接近其他國際頂尖模型,如o3與Gemini-2.5-Pro。
根據公告,DeepSeek R1模型已完成小版本升級,當前版本為DeepSeek-R1-0528。用戶透過官方網站、APP或小程序進入對話界面後,開啓「深度思考」功能即可體驗最新版本。
公告提到,DeepSeek-R1-0528使用2024年12月所發佈的DeepSeek V3 Base模型作為基座,但在後訓練過程中投入了更多算力,顯著提升模型的思維深度與推理能力。更新後的R1模型在數學、寫程式與通用邏輯等多個基準測評中取得當前大陸所有模型中首屈一指的優異成績,並且在整體表現上已接近其他國際頂尖模型,如o3與Gemini-2.5-Pro。
相較於舊版R1,新版模型在複雜推理任務中的表現有顯著提升。例如在AIME2025測試中,新版模型準確率由舊版的70%提升至87.5%。這一進步得益於模型在推理過程中的思維深度增強:在AIME2025測試集上,舊版模型平均每題使用12K tokens,而新版模型平均每題使用23Ktokens,表明其在解題過程中進行了更為詳盡和深入的思考。
DeepSeek表示,DeepSeek-R1-0528的思維鏈對於學術界推理模型的研究和工業界針對小模型的開發都將具有重要意義。
新版DeepSeek R1針對「幻覺」問題進行了優化。與舊版相比,更新後的模型在改寫潤色、總結摘要、閱讀理解等場景中,幻覺率降低45-50%左右,能夠有效地提供更為準確、可靠的結果。
在舊版R1的基礎上,更新後的R1模型針對議論文、小說、散文等文體進行進一步優化,能夠輸出篇幅更長、結構內容更完整的長篇作品,同時呈現出更加貼近人類偏好的寫作風格。
公告中還提到,目前模型的測評成績與OpenAI o1-high相當,但與o3-High以及Claude4 Sonnet仍有差距。
讀者迴響