公部門AI客服大體檢

揭開10大公務機關「智能客服」的真實能力

三年前,ChatGPT橫空出世,生成式AI的浪潮席捲全球,政府今年也喊出「AI新十大建設」,目標推動AI在公共服務上的應用,要讓民眾享受到「用得起、用得到、用得安心」的智慧服務,帶動有越來越多公部門、國營事業導入AI文字客服,但這些客服真的「智慧」嗎?

為了檢驗政府AI客服的真實水準,《ETtoday新聞雲》製作「公部門AI客服大體檢」專題,挑選了10家與民眾生活息息相關、有標注提供「AI客服」或「智能客服」的政府部門與公用事業,包括公用事業的中華電信、中華郵政、台電;交通相關的公路局、台北捷運、桃園機場,以及政府機構包括健保署、勞動部、桃園市政府高雄市政府,進行測試。

實測結果令人玩味,表現最好的單位拿到了78.6分的高分;而在後段班的單位,竟只有30分出頭的慘烈成績。這巨大的落差背後,除了顯示各自設計的技術細節差異外,還折射出公務體系面對「創新」與「防弊」時,兩種截然不同的心態博弈。

評測方式

參考國際化標準ISO 9241可用性標準、ISO/IEC 25010軟體品質模型,以及美國國家標準與技術研究院(NIST)對聊天機器人的評估架構,歸納五大評測指標,分別是:

・資訊正確性(30%):答案是否正確
・問題解決度(30%):是否解決使用者問題
・表達易懂性(20%):文字是否淺白易懂
・追問互動性(10%):能否透過一次對話了解題意,或透過追問釐清使用者需求
・誤導歧視度(10%):是否有誤導或歧視內容,採扣分制

測試時間為2025年8月中旬到9月上旬,依各單位業務範圍設計10個問題,其中5題是基本題、5題是難度較高的問題。先針對AI回答進行事實查核後,逐題評分,再加總、平均,最後得出每個單位的總分並進行排名。

「公部門AI客服大體檢」評分排名

名次 機構名稱 總分 資訊正確性
(30%)
問題解決度
(30%)
表達易懂性
(20%)
追問互動性
(10%)
誤導歧視度
(10%)
1 健保署 78.6 24 21.4 16.4 7 9.8
2 桃園機場 77 26.4 19.8 16 5 9.8
3 高雄市政府 76.9 22.6 21.4 16.3 7 9.6
4 公路局 71.5 20.6 20.1 15.3 5.8 9.7
5 桃園市政府 60.5 25.5 10.6 12.5 2.5 9.4
6 台北捷運 47.8 17 7.5 11.3 2.5 9.5
7 中華郵政 45.3 9 10.7 12.1 3.5 10
8 台電 40.1 7.5 8.3 11.3 3 10
9 勞動部 35.5 12 6.5 7.1 1 8.9
10 中華電信 31.8 5 5.1 10.7 1 10
資料來源:《ETtoday新聞雲》採訪整理

前段班的突圍:當公務員開始「教」AI 說人話

▲ 健保署、桃園機場、高雄市政府3個機關的AI文字客服表現最好。圖為健保署Logo、桃園機場大廳與高雄85大樓。(圖/資料照片)

在這次評測中,衛生福利部中央健康保險署以總分78.6分奪下冠軍,包括「資訊正確性」拿下24分(滿分30分)、「問題解決度」21.4分(滿分30分)表現最為突出。當被問到「我的健保卡遺失了怎麼辦?」時,健保署AI客服不但提供完整的補辦流程,還會主動告知需要準備的文件、辦理地點、費用等細節,更貼心提醒「如果急需就醫,可先到醫療院所申請『補卡證明』」。

對於需要釐清不同時期規定的問題,健保署的AI文字客服也能精準回答。若遇到無資料或無法回答的問題,該客服也不會胡亂回答,會直率的表達「很抱歉,在我所知道的資訊裡沒有這項資訊」,並建議向哪個單位詢問。

▲健保署的AI文字客服,對於需要釐清不同時期規定的問題,也都能完整回答。(圖/截自健保署官網)

健保署承保組組長江姝靚說,一開始就希望AI文字客服讓民眾得到更清晰易懂的回覆,採取路徑是透過「檢索增強生成」(RAG, Retrieval-Augmented Generation)架構的大型語言模型,透過健保署同仁或民眾提過的問題建立問答集(QA)資料庫。 AI先理解民眾問題語意後,再到QA資料庫找答案,最後再自動轉譯成白話內容回覆。目前資料庫已經累積超過2500題,也會不定期更新最新法律規定。

採用AI文字客服最擔心出現「幻覺」,健保署怎麼解決?江姝靚說,內部測試前確實有出現回答品質不佳的情況,經過不斷調校,加上設置了嚴格條件,若AI無法找到相關問題答案等,就不會提供答案;最終確定正確率95%以上,才對民眾開放。

健保署內部統計,目前對該單位AI文字客服回答「按讚」的民眾約有20.5%,倒讚有4.7%,其餘多數都未回答。江姝靚說,內部很在乎民眾按「倒讚」的原因,會逐一回去檢視AI的回答是否有問題,如是不是缺少某些資訊?還是回答少了溫度?或是純粹不滿意法規等,持續修正AI文字客服的回答品質。但健保署婉拒透露背後採用哪款大型語言模型。

▲桃園機場的AI文字客服在評測中表現佳,甚至對於桃園捷運首末班車時間、最晚退稅要在登機前多久辦理等,都能回答正確。圖為飛機停在桃園機場第三航廈。(圖/資料照片)

桃園機場以總分77分拿下第二名,主要兩項評分項目包括「資訊正確性」拿下26.4分、「問題解決度」19.8分。包括基本的「行動電源幾瓦可以帶上飛機?」、「桃園捷運首末班車時間?」,到複雜的「退稅最晚要在登機前多久辦?要在哪裡辦?」都能正確回答。

桃園機場公司說,AI客服的主要資料來源為桃園機場官方網站,並依據網站資訊延伸出多樣化的提問與答案。上線前最大的挑戰是如何讓系統能理解旅客各種不同的問法,經過人工測試、問答匹配度檢視及多輪修正,最終達到穩定可靠的服務品質。

▲高雄市政府的AI文字客服,回答會引述資料更新日期,供民眾判斷參考;但若範圍落在市府網站之外的資訊,就會無法回答。(圖/截自高雄市政府官網)

以76.9分拿下第三名的高雄市政府,則展現了另一種公務機關少見的「硬頸精神」。高雄市政府資訊處處長劉俊傑笑說,各家架設AI文字客服的邏輯都相似,要先有QA資料庫,但公務機關最大的痛點在於「跨單位整合」,其他部門現有的QA資料都已經上傳到各自部門網站,要讓他們再上傳一次,在行政體制下難度極高。

與其等待各局處配合,高雄市政府資訊處決定反其道而行。他們自行寫了一套爬蟲程式,定期去「爬」各局處的官網公告作為資料庫。這種「不求人」的策略,讓高雄市的AI具備了極高的即時性與廣度。例如詢問「犬貓結紮補助」,它能明確指出2025年的補助時程,甚至提醒「經費用罄會提前結束」。

但詢問TPASS常客回饋,就會回答「目前在高雄市政府各機關網站中找不到您要問的資料」。劉解釋,因為TPASS詳細的政策資料是在中央交通部,這部分就會涵蓋不到。

為了避免AI回答錯誤甚至產生「幻覺」,高雄市的AI文字客服每次回答都會先聲明是根據「截至某年某月某日」的資料,供民眾輔助判斷資訊可信度。

《ETtoday新聞雲》測試過程中,也發現該客服弄混YouBike電動輔助車與一般YouBike的費率。劉說,收到《ETtoday新聞雲》測試資料後已經立刻修正,目前AI文字客服仍處於測試中階段,非常歡迎民眾遇到任何AI文字客服的問題,都能回饋給市府,讓他們的AI客服變得更強。資訊處目標,希望未來讓高雄市政府AI文字客服變成「虛擬市長」,能夠回答高雄市所有大小事。

中段班的掙扎:在「聰明」與「安全」間走鋼索

▲公路局的AI文字客服「小鹿」(左),和桃園市政府的AI文字客服「ㄚ桃」(右二),呈現兩種不一樣的發展策略。(圖/記者唐鎮宇攝、資料照片)

排在第四名的公路局(71.5分)與第五名的桃園市政府(60.5分),各自代表了一種公務機關AI發展路徑。

公路局的AI文字客服「小鹿」,是本次評測中唯一具備「主動追問」能力的客服。

當測試者詢問「申請國際駕照要帶什麼?」時,「小鹿」沒有急著吐出長篇大論,而是先反問:「小鹿先了解一下,請問您想詢問的是:申請國際駕照應備文件?還是外國換本國駕照?」經過幾輪詢問後、了解使用者背景資料後,小鹿才會回答。

▲為了降低使用者怒氣,公路局的AI文字客服介面刻意設計成粉紅色;該客服也是這次評測的10家單位中,唯一有主動追問能力者。(圖/截自公路局官網)

公路局用路人服務中心執行秘書章世政說,會這樣設計是基於過往客服人員的反饋,民眾打電話來往往只說「我要講罰單」,但究竟是要查罰單、繳罰單,還是申訴?透過AI的追問機制,能大幅收斂問題範圍,這正是「解決問題」的第一步。詢問公路局客服的民眾有一項特點,就是詢問時的「怒氣值」通常都很高。章世政笑說,公路局業務從塞車、公車過站不停、罰單、拖吊都涵蓋,所以設計AI文字客服時,大量吸取第一線客服人員經驗,先是將網站頁面改為粉紅色,降低民眾不滿情緒;再來是把「小鹿」人設設定為「專業又溫暖」的人格,並針對不同問題給出不同風格的答案。目前AI文字客服服務量約等於5名真人客服的產能,服務人次從去年每月3.5萬人次,增加到今年每月超過5萬人次。

公路局去年開始導入AI文字客服後,也開始系統性蒐集民眾提問,找出現有行政盲點。章世政舉例,有段時間許多民眾都在詢問道安講習能否跨縣市報名的問題,才發現公路局現有通知規定說明不清,進而進一步優化調整。甚至近期氾濫的「監理站詐騙信」,公路局也能透過蒐集提問時發現,提前預知詐騙集團的新手法並加強宣導。

前面四家獲得70分高分的AI文字客服,多是讓最後的答案經由AI轉譯成白話文,如此會更貼近真人客服的回答,但也要冒著可能產生幻覺的風險。而這次以60.5分拿下第五名的桃園市政府,就採取相對保守的策略:AI只能將QA資料庫的答案貼給民眾,不能轉譯。

▲桃園市政府的AI文字客服,刻意採用「不是最聰明的」大型語言模型。(圖/資料照片)

桃園市政府智慧城鄉發展委員會主委廖修武認為,使用現在主流大型語言模型的AI文字客服,都很難避免「幻覺」問題;要避免幻覺,必須耗費大量成本建立有效的「護欄」,讓AI不會亂講話。再加上民眾詢問客服,多半是要標準答案,不需要AI發揮創意,因此桃園市政府的文字客服只讓AI理解題意、搜尋資料庫找答案,最後把答案貼給民眾,也就是說,AI只能負責翻書,不准自己造句。

為了不讓AI文字客服「太聰明」,桃園市政府AI文字客服背後採用的大型語言模型,甚至只是Google早期的「BERT」模型,而非現在最新、最聰明的模型。

▲對AI客服來說,QA資料庫的完整度與精確度很重要。這次評測中我們發現,桃園市政府AI文字客服竟會引述新北市政府的公文做為答題依據。(圖/截自桃園市政府官網)

元智大學管理學院助理教授朱訓麒分析,這就是目前公部門AI的兩條路線之爭,是要讓AI當翻譯(生成式),還是只能翻書(檢索式)?

有趣的是,這兩種不同的策略,台北捷運都實施過。

智慧VS.安全 兩種AI文字客服設計邏輯

比較項目 路線A:生成式 路線B:檢索式
運作方式 AI理解語意後,從QA資料庫找到答案,再自行轉譯成白話文 AI透過關鍵字理解問題後,從QA資料庫複製貼上答案
優點 回答像真人、易懂 不會出錯
風險 可能產生幻覺 生硬、常答非所問
代表單位 健保署、桃園機場、
高雄市政府、公路局
桃園市政府、台北捷運、
中華郵政、台電、
勞動部、中華電信
本次評測分數區間 71.5~78.6分 31.8~60.5分
資料來源:《ETtoday新聞雲》採訪整理


後段班的困境:被「玩壞」後的全面退守

▲公部門的AI文字客服主要分成兩種路徑,是AI只能從QA資料庫裡複製貼上答案,還是可以自行整理轉譯答案。這兩種模式,台北捷運都做過。(圖/資料照片)

北捷最早在2022年嘗試將AI導入文字客服,希望能夠讓回答更貼近民眾。但在去年年底,有民眾發現可以讓北捷AI文字客服寫程式碼,在社群快速流傳後,開始湧入大量民眾惡搞,要北捷AI客服算數學、寫文案等,當時北捷緊急發布聲明呼籲民眾自律,後來更將AI客服「變笨」,讓它只能判斷語意、檢索資料庫後貼上制式答案,不能再自行轉譯。

這項改變也反映在《ETtoday新聞雲》這次評測中,北捷此次總分僅47.8分,位居第六。僅基礎票價等問題回答正確,對於TPASS相關問題、能否攜帶氣球進站等多項問題答非所問,甚至只提供規定連結,未直接回答問題。目前北捷QA資料庫約有700題。

 

▲台北捷運AI文字客服背後曾是以ChatGPT為主,但去年底被網友發現竟然可以回答程式碼如何撰寫。(圖/資料照片)

▲發生網友惡搞事件後,台北捷運修改AI文字客服架構,不再讓ChatGPT介入回答,AI只能複製貼上QA資料庫的制式答案,明顯「變笨」不少。(圖/截自台北捷運官網)

台北捷運公共關係中心話務組組長黃耀儀說,會詢問北捷AI文字客服的民眾,超過5成是和尋找遺失物有關,其餘則是使用日文、韓文、英文等外國遊客。事件發生後,內部討論認為要讓客服回到單純服務旅客的方向,不要因此影響到正常營運,因而調整了架構。

這樣「寧願笨也不要錯」的策略,也體現在這次評測的後段班中,包括中華郵政(45.3分)、台電(40.1分)、勞動部(35.5分)、中華電信(31.8分),都採取一樣的做法。

▲中華郵政雖然標示為「智能客服」,但對於許多基礎問題都答非所問。(圖/截自中華郵政官網)

中華郵政的AI文字客服僅答對「查包裹要去哪裡查?」和「半夜ATM吃卡了,要打給誰?」對於「錯過掛號信,要多久內去領?」、「現在還能寄包裹到美國嗎?」等問題,不是答非所問,就是僅提供連結要使用者自行點選。

台電AI文字客服也僅答對「住宅夏月電價是什麼時候?」這樣的基本題,對於「電費逾期未繳,第幾天會被停電?」、「辦過戶時,若無法取得原用戶共同簽章,是否可單獨過戶?」多半答非所問。

勞動部AI文字客服則是僅能理解一部分問題,多數答案都是生硬的法條文字,甚至對於「2025 年最低工資」的問題,錯誤對應到「勞退新制」的法規條文。

中華電信僅有一題「人在國外時,要聯繫客服應該撥哪個國際號碼?」回答正確,其餘多是建議使用者換個方式提問,並直接貼上四、五個相關連結給使用者,無法直接回答問題。

▲在這次評測中,中華電信的AI文字客服出現多次建議使用者換個方式發問。(圖/截自中華電信官網)

中華郵政表示,「中華郵政智能客服」並未導入AI,主要依賴關鍵字與知識庫,預計明年導入Google的BERT模型,加強民眾提問語意理解、對話前後關係語意理解等。

台電業務處副處長石恩綸則解釋,台電設想的是民眾的疑問可能都是切身相關的問題,因此系統設計一開始只會提供資料庫中的制式答案,若無法回答,系統會進一步要求民眾輸入電號,之後就會依照個別用戶的情況回答。必要時AI才會介入,若兩者都無法回答,就會轉接真人文字客服。

石恩綸解釋,由於台電業務涉及電費計算和用戶權益,回答錯誤可能會導致用戶無法辦妥業務或電費不正確。因此,台電將正確性與穩定性列為最優先的原則。目前該客服上線僅一年多,未來會嘗試讓回答更加口語化和人性化。

▲勞動部的AI文字客服,在這次評測中不但很常無法完整理解使用者題意,回覆文字還多半是生硬的法規用語。(圖/截自勞動部官網)

勞動部秘書處處長丁玉珍說,勞動部AI文字客服核心目標同樣是「不能錯」,因此同樣並未讓AI轉譯答案,而是從目前2000多題中的QA資料庫找到答案,貼給使用者。因為原QA設計是「一個問題對一個答案」,勞動部的AI客服在處理複合式或雙概念的提問時表現特別糟糕,通常只能回答其中一個問題。

丁玉珍說,未來除將積極增加題庫數量,並嘗試透過生成式AI將兩個不同的概念融合成一個答案來回覆,解決複合式問題的限制。另外,內部也有發現AI文字客服的回答過於生硬,因此目前正計劃推動白話文運動,要把QA逐題交給AI轉譯成白話文,再交由業務單位核對正確性。

中華電信個人家庭分公司協理孫永賢則解釋,中華電信對於AI相關技術都有掌握,但先前內部測試讓AI透過QA資料庫答案來轉譯作答,發現AI有時會將不同的業務資料,合併成一個看似正確的答案。為了避免幻覺產生不必要的糾紛或影響客戶權益,目前的AI客服「Q寶」仍採取較保守策略,不讓AI介入最後的回答。

雖然外部使用偏向保守,但中華電信在內部積極導入生成式AI,如讓AI生成參考答案、供真人電話客服人員即時參考的「AI值機助理」,目前反應不錯。

▲中華電信AI文字客服在這次評測表現不佳,但中華電信已在自家電話客服端導入AI值機助理,可即時提供真人客服參考答案,也已協助勞動部建置同類型系統。(圖/資料照片)

元智大學管理學院助理教授朱訓麒說,評測反應的不只是技術問題,而是各組織文化和思維的問題。民眾提問時不會用精確的用字,如果AI客服的設計邏輯只能抓關鍵字,那它可能很難聽懂民眾那些模糊的抱怨。只有進化到「翻譯官」的角色,利用大型語言模型的推論能力去猜測民眾的意圖,才有可能打破這道牆;使用者的懶惰,是AI最大的挑戰,也是最大的機會。

延伸閱讀

被罵是日常、聽懂「酸言酸語」是專業 那些AI還無法取代的客服人生