神經網絡其實和人一樣懶惰,喜歡走捷徑......

作者 | Jörn-Henrik Jacobsen, Robert Geirhos, Claudio Michaelis,深度學習研究專家

譯者 | Arvin,責編 | 夕顏

出品 | CSDN(ID:CSDNnews)

以下爲譯文:

人工智能會很快取代放射科醫生嗎?最近,研究人員訓練了一個深度神經網絡對乳腺癌進行分類,其準確度達到了85%。當與其他三種神經網絡模型結合使用時,最終的集成方法達到了出色的99%的分類準確度,可以與經過多年訓練的放射專家相媲美。

 

上述關於乳腺癌的分類結果是正確的,但有一點小問題:研究人員沒有使用最先進的人工深度神經網絡,而是訓練“自然”神經網絡——更準確地說,是用四隻鴿子來診斷乳腺癌。

 

2018年,加利福尼亞大學的研究員發現鴿子對乳腺組織的顯微圖像很敏感,還能夠準確通過乳腺X光片鑑別良性、惡性乳腺癌腫瘤,經過15天的訓練之後,鴿子們對乳腺癌病理切片和醫學影像的判斷正確率就提升到了85%左右。

然而,鴿子從未被視爲醫學成像的未來,大公司也沒有砸錢建大規模養鴿場:與我們對深度神經網絡(DNNs)的期望相比,我們對鴿子並沒抱太大期望。

 

在許多方面,DNN確實沒有辜負宣傳和人們的希望:它們在整個社會,行業和科學領域的成功都是不可否認的,而且新的突破仍然會在幾個月(甚至幾周)的時間就能實現。但是,看似脫節的失效案例仍在不斷髮生着:DNN在識別物體方面達到了超人的性能,但是即使很小的看不見的變化或不同的背景和環境也可能使預測完全偏離。DNN可以爲圖像生成合理的標題,但是,令人擔憂的是,DNN可以在不真正查看該圖像的情況下這樣做。DNN可以準確識別人臉,但對少數羣體的人臉識別錯誤率卻非常高。DNN可以根據簡歷預測聘用決策,但是算法在選擇的過程中卻會出現偏見。

 

如何調和DNN超出人類的表現,同時卻可能會犯下荒謬錯誤之間的偏差呢?我們認爲,許多失敗案例不是個例,而是和DNN會無意識地遵循“捷徑”策略有關。雖然表面上是成功的,但稍微發生些許偏差,這些策略通常會以失敗告終。

 

“捷徑”是指在標準基準上表現良好,但在更具挑戰性的測試條件上表現差的決策規則。“捷徑”出現的情況多種多樣,在數據集和應用程序領域中無處不在。比如:

從原則上講,捷徑學習並不是一種新現象,它有很多不同的術語名稱,例如“協變移位學習 ”、“反因果學習”、“數據集偏差”、“坦克傳奇 ”和“聰明漢斯效果”等。 我們在這裏討論捷徑學習如何結合深度學習的問題,以及我們可以做些什麼來更好地理解和使用捷徑學習。

 

01

什麼是捷徑?

在機器學習中,模型能夠學習的解決方案受數據、模型體系結構、優化器和目標函數的約束。然而,這些約束往往會允許不止一個解決方案,通常有很多不同的方法來解決同一個問題。捷徑是在典型測試集上表現良好,但在不同情況下失敗的解決方案,暴露出與我們的意圖不符的現象。

舉一個例子,當在簡單的星月數據集上訓練時(頂行),標準的神經網絡(三層,完全連接)可以輕鬆地對新的類似樣本(數學上稱爲i.i.d.測試集)進行分類。但是,在稍有不同的數據集(o.o.d.測試集,最下面一行)上對其進行測試揭示了一種捷徑策略:網絡已學會將對象位置與類別相關聯。在訓練過程中,星星總是顯示在圖片的右上角或左下角;月亮則顯示在左上角或右下角。這種模式仍然存在於來自i.i.d.測試集(中間一行)的樣本中,但在o.o.d.測試圖像(下排)中不存在,從而暴露了捷徑現象。這裏最重要的一點是,在訓練設置約束下,位置和形狀都是有效的解決方案,因此,沒有理由期望神經網絡更喜歡其中一個。然而,人類具有使用物體形狀的強烈直覺。就像這個例子看起來那樣,對抗性例子,偏向機器學習模型,缺乏領域通用性和輸入略有變化引起的失效等都可以理解爲捷徑學習現象的實例。

 

例如,研究人員開發了一種機器分類器,能夠從多家醫院的X光掃描中成功檢測出肺炎,但是對於來自新醫院的掃描,它的性能卻出人意料地低:該模型意外地學會了以近乎完美的精確度識別特定的醫院系統(例如,通過在掃描中檢測到醫院特定的金屬標記,請參見左圖)。加上醫院的肺炎患病率,它在訓練過程中就可以達到相當好的預測,而根本無需瞭解太多肺炎的知識。分類器沒有學習如何“理解”肺炎,而是選擇了最簡單的解決方案,僅查看標記類型。

 

02

深度學習之外的捷徑學習

通常,這樣的失敗案例可以被視爲機器學習算法不可信任的原因。然而,生物學學習者也遇到非常相似的失敗模式。在牛津大學實驗室的一項實驗中,研究人員觀察到,老鼠可以僅根據細微的色差學習到穿越複雜迷宮的方法,這非常令人驚訝,因爲老鼠的視網膜僅具有基本的視覺能力,視力非常差。深入研究這個奇怪的現象,我們會發現原來老鼠欺騙了研究人員:他們在實驗中根本沒有使用視覺系統,而是僅僅通過迷宮壁上使用的彩色塗料的氣味來區分顏色。一旦控制了氣味,老鼠們卓越的顏色辨別能力就消失了。

 

動物通常以一種意想不到的方式解決一個實驗範式(即數據集),而未使用人們真正感興趣的能力,從而迷惑實驗者。對人類來說,這凸顯了想用比人類現有方式更復雜的方式來解決一項艱鉅的挑戰是多麼的困難。當然,在Marr的實驗實現層面,老鼠和人的顏色辨別能力可能存在差異。但是在算法級別上,通常會默認一個假設,即類人的表現意味着類人的策略(或算法)。這種“相同的策略假設”同樣存在於深度學習:即使DNN單元與生物神經元不同,但如果DNN成功識別出物體,那麼似乎可以很自然地認爲它們是像人類一樣使用通過物體的形狀來識別物體。因此,我們需要區分實驗對象在一個數據集的性能表現與獲取能力之間的聯繫,在將“物體識別”或“語言理解”等高級能力賦予機器之前,我們要非常謹慎,因爲通常有一個更簡單的解釋:

可以歸因於捷徑學習時,切勿使用高級能力進行解釋。

 

03

捷徑學習需要我們改變基準測量的方式

從歷史上看,機器學習研究主要由基準驅動,基準測試通過在任務和數據集的固定組合上對算法進行評估,使算法具有可比性。這種模式在很短的時間內就引領了該領域的巨大進步。但這並非沒有缺點。一方面,它爲研究人員提供了強大的動力,使其可以將精力更多地集中在改進現有基準的新穎算法的開發上,而不是瞭解他們的算法或基準。然而,這種對理解的忽視,恰恰讓是讓捷徑學習成爲深度學習中普遍存在問題的部分原因。

讓我們看一個著名的例子:ImageNet 數據集和挑戰賽創建於2009年,作爲一種新的衡量對象識別進度、算法識別和分類對象能力的方法。由於ImageNet規模巨大,它本身是一個未解決的問題,沒人膽敢挑戰。它的多樣性和規模爲當前的深度學習革命鋪平了道路。Krizhevsky等人2012年的論文和挑戰賽的耀眼成績證明了具有學習權重的深層神經網絡可以用獨特的方式處理這種複雜性(而不是當時普遍的手工調整圖像分析方法)。在接下來的幾年中,ImageNet成爲ImageNet基準測試進步和性能提升的推動力,成爲計算機視覺進步的代名詞。

 

直到最近幾年,隨着越來越多的DNN失效案例的出現,這種情況纔開始慢慢改變。所有這些失效案例背後的一個主要原因是,儘管ImageNet具有規模和多樣性,但它並不需要真正的對象識別,從某種意義上說,模型必須正確地識別和分類我們用作標籤的前景對象。相反,在許多情況下,對象的背景、紋理或其他對人類不太明顯的捷徑可以很好地被識別。如果比場景中的主要對象更容易識別背景,網絡通常會學習利用這一點進行分類。

 

這種行爲所引起的後果,是神經網絡泛化能力的失敗。下圖左側是人們期望模型進行泛化的幾個方向。不管是手繪的黑白的還是彩色的門牌號,5都是5。同樣,在姿態、紋理或背景上的輕微變形或變化也不會影響我們對圖像中主要對象的預測。相比之下,DNN很容易被欺騙。有趣的是,這並不意味着DNN完全不能泛化:事實上,在對人類幾乎沒有意義的方向上,它們還是可以很好地泛化。下圖的右側顯示了一些例子,從一些可理解的(置亂圖像以僅保留其紋理)到完全不可理解。 

導致捷徑學習和隨後的泛化失效的關鍵問題是我們對任務的理解與它實際上激發學習的模型之間的差異。我們如何減輕這個問題並提供對捷徑學習的洞察力?當前大多數基準測試的主要缺點是,它們會測試訓練集中相同數據分佈的圖像(iid測試)。這種類型的評估僅需要一種較弱的泛化形式。但是,我們需要強大的歸納能力,這些能力大致與我們的直覺相吻合。爲了測試這些,我們需要良好的分佈外測試(ood測試),這些測試應具有明顯的分佈變化,明確定義的預期解決方案,並提供模型學習捷徑的節點。

 

但還不止於此:當模型變得越來越好時,它們會學習利用微妙的捷徑,因此我們預測,基準測試也會越來越強。這種“滾動基準”可以確保我們在模型開發過程中不會失去對最初目標的跟蹤,而會不斷地將精力重新集中在解決我們真正關心的潛在問題上,同時加深我們對建模管道與模型之間相互作用的理解。

 

04

跨過捷徑實現理解,該怎麼做?

科學的目標就是理解。儘管深度學習作爲一門工程學科在過去幾年中取得了長足的進步,但深度理解作爲一門科學學科,在理解控制機器學習如何從數據中提取模式的原理和侷限性方面仍非常落後。更加深入地理解捷徑學習不僅關乎當前機器學習的應用,未來還可能有助於跨學科研究,如與經濟學(通過獎勵意外的“捷徑”行爲來設計不會危及長期成功的管理激勵措施)、法律(創建沒有“漏洞”捷徑機會的法律)交叉融合的機會。但是,必須指出,我們可能永遠不會完全解決捷徑學習。模型始終以減少的信息爲基礎來做出決策,因此泛化失敗不可避免:受捷徑學習影響而失敗將會是常態,而不是意外。爲了深入理解捷徑學習,或減輕它的影響,我們有五個建議:

 

(1)連接點:捷徑學習無處不在

 

捷徑學習似乎是生物學和人工學習系統的普遍特徵。深度學習中的許多問題都與捷徑學習有關——模型利用數據集捷徑機會,僅選擇一些預測特徵而不是仔細考慮所有可用證據,因此因各種原因失敗。受影響區域之間的“連接點”很可能會促進發展,並且在各個應用場景中產生極有價值的影響。

 

(2)認真解讀結果

 

發現捷徑通常意味着,一個看似複雜的數據集可以用簡單的方案解決。我們認爲,在將諸如“對象識別”或“語言理解”之類的高級功能歸因於機器之前,我們需要格外小心,因爲通常會有更簡單的解釋。

 

(3)測試分佈外的泛化表現

 

評估iid測試數據的模型性能(就像當前大多數基準測試一樣)不足以區分預期的和意外的(捷徑)解決方案。因此,分佈外的測試是必須要做的。

 

(4)瞭解是什麼讓解決方案易於學習

 

DNN總是學習最簡單的問題解決方案,但是要了解哪種解決方案更簡單(從而容易學習),則需要弄清結構(體系結構)、經驗(訓練數據)、目標(損失函數)和學習(優化)的影響,以及對這些因素之間相互作用的透徹理解。

 

(5)首先弄清楚是否真的要解決這個問題

 

捷徑的存在意味着,無論任務是否得到充分證實,DNN都會找到解決方案。例如,系統可能試圖根據敏感的人口統計學(例如膚色或種族)或僅根據外表,用捷徑來評估信用分數。這很令人擔憂,因爲當將機器學習用於不明確或有害的任務時,可能會強化錯誤的假設和有問題的關聯。捷徑方式可以使此類可疑任務看起來完美可解決。但是,DNN具有高性能處理任務或基準的能力永遠無法證明任務的存在或潛在假設。因此,在評估一項任務是否可以解決時,我們首先需要問:是否真的要解決這個問題?如果答案是yes,、應該用AI來解決嗎?

 

捷徑學習是當前ML模型與人類智能之間最具標誌性的差異。但具有諷刺意味的是,正是這種對“作弊”的偏愛,使神經網絡看起來幾乎和人類又相像了幾分:誰還沒有過在考試前偷懶背材料,而不是花時間去真正理解的經歷?誰從來沒有試圖在一項法規中尋找漏洞,而不是堅持法律的精神?最後,神經網絡也許和(懶惰的)人類並沒有什麼不同……

 

本觀點基於以下論文:

 Geirhos,R.,Jacobsen,JH,Michaelis,C.,Zemel,R.,Brendel,W.,Bethge,M.&Wichmann,FA(2020)。深度神經網絡中的快捷學習。arXiv預印本arXiv:2004.07780。

 

作者簡介

Dr.Jörn-HenrikJacobsen,圖賓根大學博士後,在阿姆斯特丹大學獲得博士學位,研究廣泛涉獵學習有用的含義和世界的通用表示形式,特別關注分佈外的概括,無監督表示學習,穩定性保證和算法偏差。

 Robert Geirhos,德國馬克斯·普朗克國際智能系統研究學院的博士,獲得蒂賓根大學計算機科學專業碩士學位,專注於人類和計算機視覺研究。

 Claudio Michaelis,國際馬克斯·普朗克智能系統研究學院博士,獲康斯坦茨大學碩士學位,興趣領域爲理解人工神經網絡。

 

原文鏈接:

https://thegradient.pub/shortcuts-neural-networks-love-to-cheat/


1.從嵌入式角度分析“可解釋性”對人工智能的影響!

2.【MCU】寄存器、標準庫、HAL庫、LL庫,這麼多庫!你叫我怎麼選?

3.用Linux開發嵌入式項目攏共分幾步?

4.程序本身如何知道自身大小?這是雞生蛋還是蛋生雞的問題!

5.國產集成開發環境助力國產RISC-V打破國外巨頭在芯片技術上的壟斷

6.做嵌入式開發時,你是怎麼實現LCD顯示的?

免責聲明:本文系網絡轉載,版權歸原作者所有。如涉及作品版權問題,請與我們聯繫,我們將根據您提供的版權證明材料確認版權並支付稿酬或者刪除內容。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章