記者蘇晟彥/綜合報導
在過去一年內,全世界的AI聊天機器人爆發,不少人都將這些聊天機器人當作生產助力,協助解決工作難題。但根據哥倫比亞大學陶氏數位新聞中心研究,針對時下熱門的8款AI搜尋引擎進行數據測試,發現錯誤率高達60%,其中Perplexity表現相對較佳,而馬斯克最自豪的 Grok-3 表現則最差,錯誤率高達94%。
▼外國研究中心針對AI搜尋引擎進行測試,發現Grok-3 表現則最差,錯誤率高達94%。(圖/路透)
根據研究指出,研究人員Klaudia Jaźwińska 和 Aisvarya Chandrasekar 以「AI搜尋是否存在引用問題」進行測試,每個AI搜尋引擎都測試200次,測試包含ChatGPT Search、Perplexity、Perplexity Pro(付費;20美金/月)、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search(40美金/月) 和 Copilot 八個搜尋引擎。
每個測試將會向搜尋引擎提供一篇文章引述,然後提示它們文章標題、出版日期、出版物名稱以及網址連結,要求他們找出正確的文章,但經過測試,60%都沒辦法找到正確的資訊。對此,標榜是「研究工具」的Perplexit失敗率最低,錯誤率為 37%;而馬斯克旗下公司xAI所推出的Grok-3 Search 失敗率高達94%。
對此,研究人員指出0另一個問題是,這些搜尋引擎在錯誤時表現出的高度自信。儘管有些聊天機器人被設計為在不確定答案時承認,但市場上許多流行的AI搜尋引擎傾向於盲目自信地回應。這使得用戶更難判斷何時應該對回應的準確性持懷疑態度。例如,在ChatGPT的134個錯誤引用中,聊天機器人僅在15個回應中使用了保留性語言。Copilot是唯一的例外,它拒絕回答大多數被提出的問題。
此外,錯誤網址也很常見,儘管不同搜尋引擎之間的表現差異很大。Gemini和Grok-3是表現最差的兩個,它們提供的錯誤連結數量超過了正確連結。例如,Grok-3在200次測試中,有154次將用戶指向404錯誤頁面。而AI搜尋的引用問題是人們對AI搜尋作為新興推薦流量來源持懷疑態度的又一原因。除非AI公司能夠首先確保其搜尋引擎能夠始終如一地準確引用新聞出版商的故事,否則沒有理由相信這些搜尋引擎將成為可行的推薦來源,或成為傳統搜尋的可比替代品。
讀者迴響