AI賦能的判定機制的傾向性

最近忙着論文的事情,沒有時間寫一些技術博客,而且CSDN的圖牀經常出現問題,也懶得整理了。

今天也是說些閒話,討論下對未來AI賦能判定機制的一些思考。


什麼是AI賦能的判定機制,主要其實就是:基於機器智能的技術手段,來代替人類評判事情。

可以舉例幾個典型應用:

AI自動面試

AI面部識別罪犯

AI病理檢測

等等.....

最近恰好很火的一條新聞:

《面部識別預測罪犯”研究遭1700名學者聯名反對》
 
 

下面是具體內容:

在一份長長的公開信中,數千名 AI 研究人員呼籲科學出版商 Springer Nature 不要發表一篇論文。據介紹,該研究提出了一種面部識別系統,能夠預測一個人是否爲犯罪分子。這篇論文由美國哈里斯堡科技大學(Harrisburg University of Science and Technology)提交。

是什麼研究引發瞭如此爭議?在這篇名爲《A Deep Neural Network Model to Predict Criminality Using Image Processing》的論文中,研究人員稱該技術沒有種族偏見,根據照片中人的面部特徵預測是否爲罪犯的準確性達到了 80%,這一深度學習方法是面向執法機構開發的。

這篇論文的第一作者,哈里斯堡科技大學在讀博士 Jonathan Korn 是一名前紐約警察。同爲論文作者的 Roozbeh Sadeghian 教授在論文提交的新聞中表示:“我們知道機器學習技術在與面部識別和情感檢測有關的各種任務上可實現超過人類的水平。新研究表明,這些工具可以從圖像中提取出高度可預測犯罪的微小特徵,這證明了新方法的強大。”

在原先的計劃中,這篇論文會被收錄在施普林格·自然旗下研究叢書「Springer Nature – Research Book Series: Transactions on Computational Science & Computational Intelligence」中。

“通過無偏見地自動識別潛在威脅,我們可以實現預防犯罪的目標,爲執法部門和軍事應用提供受到隱形偏見和情感因素更小的工具,”論文作者之一的 Nathaniel Ashby 表示。“我們的下一步是尋找合作伙伴以推進這一使命。”

然而事情並不如作者所想的那樣順利。在新聞發佈之後,“AI 看人臉預測犯罪”的研究很快引發了不小的爭議。在社交網絡上,業界專家就效率、隱私和道德等原則達成了共識,稱該計劃不負責任、牽強附會且「錯得離譜」,因爲這可能引出 AI 判斷一些人是天生罪犯的奇怪結果。

在論文提交後,哈里斯堡科技大學的新聞稿。在 5 月份這篇新聞因爭議過大又被刪除。

自 5 月論文提交的消息被曝出後,這一研究一直被科學界關注與討論。在最近的公開信中,已經有來自哈佛大學、MIT、谷歌以及微軟的學者和 AI 領域的專家在這封公開信上簽字。他們呼籲出版公司 Springer 停止發表這篇論文:“我們是來自不同科技領域、學科和人文領域的研究者及從業人員,我們對於即將出版的論文深表關注。”

公開信的組織者之一 Audrey Beard 在一份郵件聲明中表示:“根本無法開發出不存在種族偏見的犯罪預測系統,因爲刑事司法數據本身就是存在種族偏見的。”

這已經不是 AI 研究者第一次提出這樣令人質疑的研究了。

根據人的相貌來評估犯罪機率,這讓人們想到了 2016 年 11 月上海交大提交到預印版論文平臺 arXiv 上的論文《使用臉部圖像自動推斷罪犯》,研究者聲稱通過大量證件照片的訓練,神經網絡模型可以在識別罪犯時準確率達到 87%。在當年,該研究也曾引起學術界和輿論界的大量討論。

6月24日,Nature 作出了澄清,哈里斯堡科技大學的文章不會被出版:

但還是有人繼續質問:“爲什麼這樣的文章會進入施普林格·自然的審覈流程?”看來想要消除深度學習的偏見,避免其成爲“作惡”的工具,我們還有很多事情要做。

公開信:

https://medium.com/@CoalitionForCriticalTechnology/abolish-the-techtoprisonpipeline-9b5b14366b16

參考內容:

https://www.biometricupdate.com/202005/biometric-software-that-allegedly-predicts-criminals-based-on-their-face-sparks-industry-controversy

 

這裏面值得強調的一點,實際上,這個世界上,絕大多數評判標準,實際上同樣都是基於數據的而這些基於數據評判人類的方法,目前來看都具有一定真陽性,但都無一很具有偏見。這是一定的,目前並沒有任何一個評價體系,能夠達到完全無偏評價。

高考從某種角度也是這樣的方法,根據成績這一單一數據篩選人羣,有一定真陽性,但偏見(既假陰性假陽性)也同樣很嚴重。

有些人可能成績不好(假陰性),但是隻是不適合應試教育罷了,有些人成績很好(假陽性),但可能其他能力(包括品德)都很差。

那麼,爲什麼呢,爲什麼AI病理診斷,AI自動化面試,並沒有遭到如此的聯名抵制,反而公衆和科學家雖然一直帶着審慎的眼神看待這些技術,但沒有引起強烈的反對,甚至有很多人願意去嘗試呢?

這裏面很重要的一點,那就是一個評價體系的傾向性:

傾向性對於這些評價標準非常重要,而什麼是傾向性呢:

就像高考,是爲社會篩選優秀的人,這就是好的傾向;

AI識別罪犯,是爲社會,識別危險分子,這就是不好的傾向。

而像剛剛舉的例子,AI面試,就跟高考一樣,是好的傾向,爲公司機構篩選適合自己的人。

另一方面,AI病理檢測,跟前面幾個例子,還不一樣,它的傾向實際上比較複雜,但總體來說,AI病理檢測,通常會更傾向於檢測出疾病,這裏就涉及到假陰性,假陽性的權衡,在這個系統裏,假陰性是完全可以承擔的。

總結的簡單一些:

  1. 如果一個系統的假陰性的代價,不能承擔,那麼這個評價體系就毫無意義(例如AI檢測罪犯,所以會有如此多的人站出來反對);

  2. 如果一個系統的假陽性無法承擔,那我們可以使這個系統傾向假陰性(例如AI病理檢測,我們通常會使系統更加傾向於檢測出疾病,再由專家會診);

  3. 經過第二條後的系統需要參見第一條。而如果一個系統的假陰性可以承擔,那麼這個系統,是有一定價值的;
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章