複製DeepSeek「白菜價」大模型　「50美元＋16張英偉達GPU」完成　

▲AI晶片示意圖。（圖／路透）

▲「s1-32B」的AI推理模型研究成果，再次引起業內人士關注。（圖／路透）

記者魏有德／綜合報導

李飛飛等史丹佛大學和華盛頓大學的研究員近日傳出，不到50美元的費用和使用16張英偉達H100GPU，耗時26分鐘就完成訓練，成功「打造」出了一個名為「s1-32B」的AI推理模型。由於「s1-32B」有著低成本、高效能的特點，成為繼DeepSeek之後又一「白菜價」的成果，引起AI業內及業外人士熱議。

▲▼中國AI新創公司DeepSeek（深度求索）推出新AI模型DeepSeek R1。（圖／路透）

▲AI新創公司DeepSeek（深度求索）推出新AI模型DeepSeek R1。（圖／路透）

《每日經濟新聞》報導，根據李飛飛等人的研究論文《s1：Simple test- time scaling》顯示，該模型在數學和編碼能力測試中的表現，與OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下，在競賽數學問題上的表現更是比o1-preview高出27%。

對於外界關注的「成本問題」，復旦大學計算機學院副教授、博士生鄭驍慶認為，「像DeepSeek或類似的公司，在尋找有效的整合解決方案時，需要進行大量的前期研究與消融實驗，這意味著前期是需要大量燒錢的。」

鄭驍慶表示，模型s1-32B的打造並非是從零開始，而是基於現成的、預訓練的模型（阿里通義千問Qwen2.5-32B-Instruct）進行監督微調，「微調一個模型和從零開始訓練一個模型的成本是無法相提並論的。」

此外，50美元是否包含其他數據、設備、消融實驗等費用，也要打上一個問號。鄭驍慶提到，正如DeepSeek-V3不到600萬美元的訓練成本，實際上也只包了訓練時的GPU算力費用。

該研究結果顯示，s1-32B是樣本效率最高的開放數據推理模型，表現明顯優於其基座模型（Qwen2.5-32B-Instruct）以及OpenAI的推理模型o1- preview，然而，s1-32B實際上只能在特定的測試集上超過o1-preview，且並沒有超過「滿血版」o1和DeepSeek-R1。

李飛飛團隊論文核心其實不在於模型價格上，而是研究如何以最簡單的方式實現「測試時拓展」（test- time scaling）。也就是說，研究團隊可控制模型「思考」多長時間或進行多少步操作。

如果模型過早結束推理，系統會鼓勵模型延長思考時間，確保其充分考慮問題。這代表著模型在推理時會進行多次推理迭代，並逐步優化推理結果，最終生成高質量的答案。

每日新聞精選　免費訂閱《ETtoday電子報》