什麼是AI Agent？陸媒實測Manus　永遠使命必達「幻覺更加凸顯」

▲Manus測試四種不同工作任務。（圖／翻攝澎湃新聞）

▲Manus測試四種不同工作任務。（圖／翻攝澎湃新聞，下同）

記者魏有德／綜合報導

標榜著「AI Agent」功能的「Manus」5日上線測試，7天內申請內側的等候名單迅速增至2百萬人次。有陸媒獲得邀請碼後，針對四種不同任務進行測試，得到平均一個任務耗時約40分鐘，最擅長「理解需求後拆解任務」、提示詞越詳細則任務完成度越高等結論，此外，AI「使命必達」的原則下，出現「幻覺」數據的情況也會更明顯。

《澎湃新聞》報導，「澎湃對齊Lab」在獲得內測碼後，使用Manus進行四種任務測試。總體而言，Manus作為「開箱即用」的創新智能體應用有不少優點，交互界面友好、拆解需求能力強、多AI協作有條不紊、設計功底強，但在信息整合能力、細節優化、交付完成度上還有待提高。

▲Manus測試四種不同工作任務。（圖／翻攝澎湃新聞）

相較於此前爆火的DeepSeek，Manus是一款讓AI大模型協作的智慧助手（AI Agent），也就是不創造大模型，而是使用市面上已存在的大模型，以類似人類的方式工作，藉由大模型來「理解」用戶需求，「規劃」達成目標的路徑和調用包括大模型在內的各種「工具」執行任務。

根據不同的任務難度，「澎湃對齊Lab」分別測試了Manus在svg圖像生成、數據可視化、遊戲設計、數據挖掘和網頁交互設計等方面的能力，分別為「模擬投資網頁遊戲」、「以小王子為模型的對話智能體世界」、「對比中美AI產品人力、算力和財力之網頁」和「上海賞櫻地圖」。

透過理解能力、準確性、設計能力和代碼能力這四個指標，Manus最擅長的是理解需求後拆解任務，在不同任務難度下均能達到7分以上的標準（滿分10分）。此外，Manus的網頁設計能力和審美也值得稱讚，尤其在「小王子智能體世界」項目中，Manus在沒有提示詞的引導下，通過理解故事和設定自主完成了風格化的設計。

在Manus應用上，提示詞和參考資料越詳細，項目的完成效果可能越好。在「上海賞櫻地圖網頁」的測試項目中，將上海市各區的賞櫻地點、花期等資訊整理成表格餵給Manus，生成內容的品質明顯提升，任務用時也是4個任務中最短的，結果可以證明，資訊檢索和數據爬取等內容整合工作，較為費時費力。

值得注意的是，在「模擬投資網頁遊戲」中，雖要求Manus生成不同歷史階段的投資標的數據，但Manus提供的每月黃金數據與真實數據均有不同程度的偏差，也就是說，這些數據是AI在滿足「指令」基礎上「憑空想像」的，「這個生造數據的過程，AI並不會告訴你，這也就是各家大模型都在努力解決的AI幻覺問題，Manus調用的是現成的大模型，也自然存在著這樣的幻覺問題。」

從實測結果分析，以Manus為代表的AI Agent確實能把完成一件事的門檻越拉越低，但也把做好一件事的標準越拉越高，「越是對創意有著高要求，對內容準確性、真實性近乎嚴苛的領域，流程化的工具就只能陪你半程。更加精準地理解世界、理解人類，將成為決定工作品質與成果的關鍵，讓個人在未來的競爭格局中佔據一席之地。」

每日新聞精選　免費訂閱《ETtoday電子報》