呻吟聲也通！最強「AI鑑黃師」上線　一日過濾億張色情圖

▲▼阿里巴巴集團公布「AI鑑黃」技術，透過演算法過濾色情圖片。（圖／翻攝自環球網）

▲阿里巴巴集團公布「AI鑑黃」技術，透過演算法過濾色情圖片。（圖／翻攝自環球網）

大陸中心／綜合報導

阿里巴巴集團安全部日前公布最新的「AI鑑黃」技術，透過演算法過濾每天上億張可能涉及色情的圖片，可提升2000倍的效率，減少「人工鑑黃師」人力的需求、提高鑑別準確度。近期已經上線公測，語音、影片等多媒體領域，並支援中文、英文、日文和俄文等多國語言，甚至無語義的呻吟聲也能識別。

根據澎湃新聞報導，如果一天要審核4億張圖片，單純以人工進行，每人一天審1萬張，就需要4萬人。透過「AI鑑黃」後，交給人工審核的數量大概剩20萬張，只需要20人就能完成相同的工作，整體提升2000倍的效率，大大節省人力。

▲▼有些正常的圖片被「AI鑑黃」辨識為色情圖。（圖／翻攝自澎湃新聞）

▲「AI鑑黃」認為是色情的圖片。（圖／翻攝自澎湃新聞）

阿里巴巴的鑑黃AI原理，是將圖像分類，在標註樣本後使用深度學習技術訓練人工神經網絡，步驟為分類標準、收集樣本、樣本打標，最後是模型訓練，其中前三個步驟是人工完成，而花最久時間的是第一步。相關人士透露，「露點不露點」之類的色情，就有比較明確的判斷標準，但對於低俗和性感類的爭議就比較多。以兒童色情為例，兒童露點發生在男孩和女孩的結果有別，不同年齡、發育也可能在模糊邊緣。

AI鑑黃團隊在收集樣本的過程中要「集思廣益」，瀏覽了近2000家網站，下載超過6000萬張疑似色情的圖片，採用約2300萬張圖片，最後實際標注超過1300萬張圖片。這1300多萬張圖片就是類比訓練的原始資料庫，因此這一浩大的工程，被技術人員認為是「鑑黃引擎」成功最重要的基石。

▲▼有些正常的圖片被「AI鑑黃」辨識為色情圖。（圖／翻攝自澎湃新聞）

▲「AI鑑黃」認為是色情的圖片。（圖／翻攝自澎湃新聞）

儘管AI讓鑑黃的效率大幅提升，但帶有主觀個人意識或者群體意識等模稜兩可的場景，是人工審核不會被取代的原因。阿里巴巴安全部產品專家念夏表示，已知、有清晰標準定義的，AI都能解決；真正的難點是惡意的突發事件，由於之前對該事件或場景缺乏標準的定義，交給AI及時處理是不可能的，目前AI鑑黃最好的應用模式還是人工加上機器。