男人：程式設計師＝女人： __？研究發現AI會放大人類偏見

機器學習（machine learning）如今是人工智慧的熱門領域。軟體透過「訓練」——也就是利用既有數據自動分析找尋規律——可以預測未知的資訊採取行動。

不過最近有美國研究者發現，機器學習過程中，AI不僅會複製人類既有的偏見，甚至還會強化偏見。換句話說，機器不只會學壞，而且學得比人類還壞。

圖文／鏡週刊

人工智慧的研究，有時像是神學的問題。

上帝以自己的形像造人，為何人會墮落、犯錯、充滿弱點？而人工智慧是人們提供數據讓機器人學習、歸納模式、預測未來的行動。但是人們在無意間卻可能機器人學習並強化了人們的偏頗和錯誤。

據《Wired》雜誌最新的報導，美國維吉尼亞大學電機教授歐東涅茲（Vicente Ordóñez）在去年秋天發現到，他所建構的影像辨識軟體預測模式，當它看到廚房的照片時，通常會聯想「猜測」照片中的人是女人而不是男人。

歐東涅茲不禁好奇，是否他和他的同事們不自覺的把「廚房=女性」這種性別偏見加諸在他們開發的軟體裡。於是，他和同事們合作測試了兩組用來訓練軟體辨識影像的圖檔庫，結果令他們耳目一新。

這兩個圖檔庫，分別是華盛頓大學所建的ImSitu；和最初由微軟主持，如今也由臉書和新創公司MightyAI贊助的COCO。它們都包含了從網路搜集超過十萬個複雜場景的影像，和加注描述內容的標籤。

他們發現，兩個圖檔庫裡的男性圖像都多於女性圖像，而且對於不同性別，物件和活動的描述也有「顯著的」性別偏見。例如在COCO的圖檔庫裡，廚房的物件如湯匙和叉子和女性密切連結在一起，而戶外運動器材像是滑雪板和網球拍則是和男性相連結。

而透過這些圖檔「訓練」的學習軟體，不只是如實反映這些偏見，還會放大偏見。比如說，圖檔庫的資料裡把「烹飪」和「女性」連結在一起，把「滑鼠」和「男性」連結在一起，軟體在「學習」這些照片和它們標註的標籤之後，會放大它們和性別之間的關聯，程度超過了原本的圖檔庫。

歐東涅茲的研究報告，圖中左起第四位男性被辨識為女性。在imSitu的資料庫中，原本於烹飪相關的圖片有33%標示為男性。經過「訓練」的人工智慧辨識出男性為16%，原本的性別偏見在機器學習過程中被放大了。

艾倫人工智慧研究院的亞茲卡（Mark Yatskar）說，不只是性別偏見，其他如種族、階級等偏見也會在學習的過程中被機器人放大。

「它不只鞏固了既有的社會偏見，事實上還讓這些偏見變得更糟。」

目前機器學習程式應用越來越廣，這類的扭曲自然影響重大。如果科技公司複製這個問題，可能會影響到照片儲存服務、或類似Amazon Look這類攝影監控助手、以及使用社群媒體照片來判斷消費者偏好的工具。

谷歌在2015年就曾經發生尷尬的大烏龍，它的google photo辨識軟體錯把一對黑人男女標示為大猩猩。谷歌因此連番公開道歉。

2015年，Google Photo辨識系統將兩名黑人標示為「大猩猩」（下排圖中）引發軒然大波。

隨著人工智慧系統執行的任務越來越複雜，它萬一出錯時的代價也更高。亞茲卡說，「當這個系統的行為明顯性別偏見，將無法有效和人們運作」。比如說，未來的機器人可能無法確定某人在廚房裡做什麼，但是它的系統可能讓它「給男人一罐啤酒，幫女人洗碗盤」。

過去我們多半相信人和機器人有基本差異。因為機器人依循客觀數據統計運算，冰冷而不帶情感。不過近來隨著機器學習研究日益廣泛，一些研究證明了，機器也可能學會人的偏見。

像是去年波士頓大學和微軟所做的研究，用谷歌新聞google news的文章進行訓練的軟體，證明機器會複製了人們的性別歧視。

他們要軟體完成下面的句子：

Man is to computer programmer as woman is to X.

（男人之於程式設計師，相當於女人之於什麼）

它的答案是：

homemaker

（家庭主婦）

在歐東涅茲的實驗中，研究人員設計了一個方法，來抵消機器學習的放大現象，有效強迫軟體如實反映訓練的資料。

這種「糾正錯誤」的做法，是多數科技業奉行的標準。微軟研究院主任霍維茲（Eric Horvitz）就認為，COCO圖檔庫和其他的數據庫應該留心本身供機器學習的內容是否存在著偏見。

事實上，不只是電腦，現在常見一些教科書也會修改內容，來呈現一個「比較理想」的世界。比如說兒童教材裡面，建築工人的人數可能男生和女生一樣多。霍維茲認為，對於機器學習，也許也該考慮類似的做法。他說：「這確實是很重要的問題，我們要判斷什麼時候該改變事實，讓（人工智慧）的系統用更積極正面的方式運作。」

不過這可能引發了另一個問題。我們要讓機器學習的是「真實」的世界，還是我們對「理想」世界的投射？比如普林斯頓的研究員卡利斯坎（Aylin Caliskan）就認為，如果世界上建築工人明明男性多於女性，影像辨識程式就應該看到這實際的情況。她說「數據庫必須反映世上真實的統計數字，」否則「我們可能有喪失基本訊息的危險」。

參考資料

Machines taught by photos learn a sexist view on women（Wired）