▲DeepSeek讓中國AI產業信心大增。(圖/路透)
記者楊庭蒝/綜合報導
繼美國富商馬斯克旗下公司xAI推出新一代聊天機器人「Grok 3」後,中國AI初創企業DeepSeek迅速回應,宣布推出專為超長文本訓練與推理設計的「原生稀疏注意力」(Native Sparse Attention,簡稱NSA)技術,展現其在AI領域的技術實力與創新能力。
據悉,DeepSeek於近日在海外社交平台X發布技術論文,詳細介紹NSA的設計與應用。該技術針對現代硬體進行優化,通過三大核心組件的協同運作,顯著提升推理速度並降低預訓練成本,同時保持模型性能。
論文指出,NSA在通用基準測試、長文本處理以及基於指令的推理任務中,表現可媲美甚至超越傳統的「全注意力」(Full Attention)模型。尤其在解碼階段,NSA的推理速度提升最高可達11.6倍,為AI模型的高效訓練與應用開闢了新方向。
NSA的優勢在於其高效的長序列處理能力,使模型能夠直接處理整本書籍、代碼庫或多輪對話場景,例如千輪客服對話。這一特性不僅擴展了大語言模型在文檔分析、代碼生成及複雜推理等領域的應用邊界,還大幅降低了相關成本。DeepSeek創始人梁文鋒作為論文共同作者,強調NSA為AI模型在效率與能力間的平衡提供了新的解決方案。
DeepSeek的技術熱潮已迅速滲透至各行各業。深圳市福田區政府近日正式引入首批70名基於DeepSeek R1技術的「AI數智員工」,參與公文處理、民生服務、應急管理及招商引資等多項政務工作。據了解,這些「數智員工」在公文格式修正方面的準確率超過95%,審核時間縮短90%,錯誤率控制在5%以內,顯著提升了行政效率。
隨著AI技術的普及,其在教育領域的應用也引發關注。在剛結束的寒假期間,不少學生借助AI工具完成作業,相關話題如「學生使用DeepSeek完成寒假作業」在網絡上引發熱議。多地教師發現,學生提交的作業在假期前後表現差異明顯,部分作業的「AI含量」偏高。教育界人士建議,學生應先嘗試獨立完成作業,僅在遇到困難時適度借助AI協助,以避免過分依賴技術而影響學習能力。
讀者迴響