AI搜尋引擎萬能?研究中心實測8款「錯誤率高達60%」:還裝沒錯

記者蘇晟彥/綜合報導

在過去一年內,全世界的AI聊天機器人爆發,不少人都將這些聊天機器人當作生產助力,協助解決工作難題。但根據哥倫比亞大學陶氏數位新聞中心研究,針對時下熱門的8款AI搜尋引擎進行數據測試,發現錯誤率高達60%,其中Perplexity表現相對較佳,而馬斯克最自豪的 Grok-3 表現則最差,錯誤率高達94%。

▼外國研究中心針對AI搜尋引擎進行測試,發現Grok-3 表現則最差,錯誤率高達94%。(圖/路透)

▲▼OpenAI。(圖/路透)

根據研究指出,研究人員Klaudia Jaźwińska 和 Aisvarya Chandrasekar 以「AI搜尋是否存在引用問題」進行測試,每個AI搜尋引擎都測試200次,測試包含ChatGPT Search、Perplexity、Perplexity Pro(付費;20美金/月)、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search(40美金/月) 和 Copilot 八個搜尋引擎。

每個測試將會向搜尋引擎提供一篇文章引述,然後提示它們文章標題、出版日期、出版物名稱以及網址連結,要求他們找出正確的文章,但經過測試,60%都沒辦法找到正確的資訊。對此,標榜是「研究工具」的Perplexit失敗率最低,錯誤率為 37%;而馬斯克旗下公司xAI所推出的Grok-3 Search 失敗率高達94%。

對此,研究人員指出0另一個問題是,這些搜尋引擎在錯誤時表現出的高度自信。儘管有些聊天機器人被設計為在不確定答案時承認,但市場上許多流行的AI搜尋引擎傾向於盲目自信地回應。這使得用戶更難判斷何時應該對回應的準確性持懷疑態度。例如,在ChatGPT的134個錯誤引用中,聊天機器人僅在15個回應中使用了保留性語言。Copilot是唯一的例外,它拒絕回答大多數被提出的問題。

此外,錯誤網址也很常見,儘管不同搜尋引擎之間的表現差異很大。Gemini和Grok-3是表現最差的兩個,它們提供的錯誤連結數量超過了正確連結。例如,Grok-3在200次測試中,有154次將用戶指向404錯誤頁面。而AI搜尋的引用問題是人們對AI搜尋作為新興推薦流量來源持懷疑態度的又一原因。除非AI公司能夠首先確保其搜尋引擎能夠始終如一地準確引用新聞出版商的故事,否則沒有理由相信這些搜尋引擎將成為可行的推薦來源,或成為傳統搜尋的可比替代品。

04/24 全台詐欺最新數據

更多新聞
557 3 4203 損失金額(元) 更多新聞

※ 資料來源:內政部警政署165打詐儀錶板

分享給朋友:

※本文版權所有,非經授權,不得轉載。[ ETtoday著作權聲明 ]

AI科技熱門新聞

ChatGPT訂閱戶模型使用額度翻倍

OpenAI繪圖模型GPT-Image-1登場

OpenAI深度研究額度再升級

Meta智慧眼鏡推即時翻譯功能

ChatGPT大當機內容生成停擺

一篇看懂OpenAI新模型差在哪

建站AI工具Lovable推出2.0版本

Gemini將拓展至手錶、汽車與耳機

華碩攜手台大打造AI猝死預警系統

華爾街:禁H20晶片銷陸毫無意義 拱手讓利給華為

哥大退學生打造AI 面試「作弊神器」

Perplexity推出iOS語音助理

DeepMind執行長預言AI將解決所有疾病

OpenAI發布34頁AI代理指南

相關新聞

關鍵字:

AI

讀者迴響

熱門新聞

最夯影音

更多

熱門快報

回到最上面