▲Manus測試四種不同工作任務。(圖/翻攝澎湃新聞,下同)
記者魏有德/綜合報導
標榜著「AI Agent」功能的「Manus」5日上線測試,7天內申請內側的等候名單迅速增至2百萬人次。有陸媒獲得邀請碼後,針對四種不同任務進行測試,得到平均一個任務耗時約40分鐘,最擅長「理解需求後拆解任務」、提示詞越詳細則任務完成度越高等結論,此外,AI「使命必達」的原則下,出現「幻覺」數據的情況也會更明顯。
《澎湃新聞》報導,「澎湃對齊Lab」在獲得內測碼後,使用Manus進行四種任務測試。總體而言,Manus作為「開箱即用」的創新智能體應用有不少優點,交互界面友好、拆解需求能力強、多AI協作有條不紊、設計功底強,但在信息整合能力、細節優化、交付完成度上還有待提高。
相較於此前爆火的DeepSeek,Manus是一款讓AI大模型協作的智慧助手(AI Agent),也就是不創造大模型,而是使用市面上已存在的大模型,以類似人類的方式工作,藉由大模型來「理解」用戶需求,「規劃」達成目標的路徑和調用包括大模型在內的各種「工具」執行任務。
根據不同的任務難度,「澎湃對齊Lab」分別測試了Manus在svg圖像生成、數據可視化、遊戲設計、數據挖掘和網頁交互設計等方面的能力,分別為「模擬投資網頁遊戲」、「以小王子為模型的對話智能體世界」、「對比中美AI產品人力、算力和財力之網頁」和「上海賞櫻地圖」。
透過理解能力、準確性、設計能力和代碼能力這四個指標,Manus最擅長的是理解需求後拆解任務,在不同任務難度下均能達到7分以上的標準(滿分10分)。此外,Manus的網頁設計能力和審美也值得稱讚,尤其在「小王子智能體世界」項目中,Manus在沒有提示詞的引導下,通過理解故事和設定自主完成了風格化的設計。
在Manus應用上,提示詞和參考資料越詳細,項目的完成效果可能越好。在「上海賞櫻地圖網頁」的測試項目中,將上海市各區的賞櫻地點、花期等資訊整理成表格餵給Manus,生成內容的品質明顯提升,任務用時也是4個任務中最短的,結果可以證明,資訊檢索和數據爬取等內容整合工作,較為費時費力。
值得注意的是,在「模擬投資網頁遊戲」中,雖要求Manus生成不同歷史階段的投資標的數據,但Manus提供的每月黃金數據與真實數據均有不同程度的偏差,也就是說,這些數據是AI在滿足「指令」基礎上「憑空想像」的,「這個生造數據的過程,AI並不會告訴你,這也就是各家大模型都在努力解決的AI幻覺問題,Manus調用的是現成的大模型,也自然存在著這樣的幻覺問題。」
從實測結果分析,以Manus為代表的AI Agent確實能把完成一件事的門檻越拉越低,但也把做好一件事的標準越拉越高,「越是對創意有著高要求,對內容準確性、真實性近乎嚴苛的領域,流程化的工具就只能陪你半程。更加精準地理解世界、理解人類,將成為決定工作品質與成果的關鍵,讓個人在未來的競爭格局中佔據一席之地。」
讀者迴響