論機器學習模型的可解釋性

在2019年2月,波蘭政府增加了一項銀行法修正案,該修正案賦予了客戶在遇到負面信用決策時可獲得解釋的權利。這是GDPR在歐盟實施的直接影響之一。這意味着如果決策過程是自動的,銀行需要能夠解釋爲什麼不批准貸款。

在2018年10月,“亞馬遜人工智能招聘工具偏向男性”的報道登上了全球的頭條新聞。亞馬遜的模型是基於有偏見的數據進行訓練的,這些數據偏向於男性應聘者。該模型構建了不利於含有“Women's”一詞的簡歷的規則。

“不理解模型預測”產生的影響

上述兩個例子的共同之處在於,銀行業中的模型和亞馬遜構建的模型都是非常複雜的工具,即所謂的黑盒分類器,它們不提供簡單且可解釋的決策規則。

如果金融機構想要繼續使用基於機器學習的解決方案,就必須投資於模型可解釋性的研究。這些機構可能確實會這麼做,因爲這樣的算法在預測信用風險方面會更準確。另一方面,如果模型經過適當的驗證和理解,亞馬遜本可以節省大量資金並避免負面報道。

爲什麼是現在?數據建模的趨勢

自2014年以來,機器學習一直保持在Gartner的Hype Cycle(技術成熟度曲線)的最頂端,直至2018年被深度學習(機器學習的一種形式)所取代,這表明其普及尚未達到峯值。

clipboard.png

來源:https://www.gartner.com/smart...

機器學習增長預計將進一步加速。根據Univa的調查報告,96%的公司預計在未來兩年內將機器學習用於生產。

其背後的原因是:廣泛的數據收集、大量計算資源的可獲得性以及活躍的開源社區。機器學習採用的增長伴隨着解釋性研究的增加,而研究的增加是由像GDPR這樣的法規、歐盟的“解釋權”、對(醫療、自動駕駛汽車)安全性以及可重現性和偏見的擔憂,或者最終用戶的期望(調試優化模型或者學習一些關於研究對象的新知識)所驅動的。

clipboard.png

來源:http://people.csail.mit.edu/b...

黑盒算法可解釋性的可能性

作爲數據科學家,我們應該能夠向最終用戶提供有關模型如何工作的解釋。但是,這並不一定意味着理解模型的每個部分或需要根據模型生成一組決策規則。

同時,如下情況也不需要解釋模型:

  • 問題被完美研究
  • 模型結果沒有後果
  • 最終用戶理解模型可能會給系統帶來博弈風險

如果我們看看2018年Kaggle所做的機器學習和數據科學調查結果,大約60%的受訪者認爲他們可以解釋大多數機器學習模型(有些模型仍難以解釋)。用於機器學習理解的最常用方法,是通過查看特徵重要性和特徵相關性來分析模型特徵。

特徵重要性分析提供了對模型學習內容以及哪些因素可能重要的初步的良好洞察。但是,如果特徵之間是相關的則該方法會不太可靠。只有模型變量可解釋時,它才能提供良好的洞察。對於許多GBMs庫(Gradient Boosting Machine),繪製關於特徵重要性的圖表非常容易。

對於深度學習來說,情況要複雜得多。使用神經網絡時,可以查看權重,因爲它們包含關於輸入的信息,但信息是壓縮的。此外,你只能分析第一層的連接,因爲在更深的層次上它太複雜了。

難怪2016年LIME(局部可解釋的模型-可解釋的說明)論文在NIPS會議上發表時,它產生了巨大的影響。LIME的模式是在可解釋的輸入數據上構建一個易於理解的白盒模型去局部模擬一個黑盒模型。已經證明它在爲圖像分類和文本提供解釋方面獲得很棒的結果。但是,對於列表數據,很難找到可解釋的特徵,其局部解釋可能會產生誤導。

LIME通過Python(lime和Skater)和R(lime包和iml包、live包)實現,並非常容易使用。

另一個有前景的想法是SHAP(Shapley Additive Explanations)。它基於博弈論。它將特徵當做玩家、將模型當做聯盟,用Shapley值說明各特徵分別帶來了怎樣的“影響(Payout)”。該方法公平地衡量(各特徵的)作用,易於使用並提供吸引人的可視化實現。

以R提供的DALEX軟件包(描述性機器學習說明)提供了一組工具,可幫助瞭解複雜模型的工作原理。使用DALEX,可以創建模型解釋器並通過可視化進行檢查,例如分解繪圖。你可能也會對DrWhy.Ai感興趣,它和DALEX是由同一組研究人員開發的。

實際用例

檢測圖片上的對象

圖像識別已被廣泛使用,其中在自動駕駛汽車中用於檢測汽車、交通信號燈等,在野生動物保護中用於檢測圖像中的某種動物,或在保險中用於檢測毀於洪澇的農作物。

我們將使用原始LIME論文中的“哈士奇 vs 狼的例子”來說明模型解釋的重要性。該分類器的任務是識別圖片上是否有狼,但它錯誤地將西伯利亞哈士奇分類爲狼。感謝LIME的研究人員能夠識別圖片上的哪些區域對模型比較重要,最終發現如果圖片包含雪就會被歸類爲狼。

clipboard.png

該算法使用了圖片的背景並完全忽略了動物的特徵。模型原本應該關注動物的眼睛。由於這一發現,就可以修復模型並擴展訓練樣本以防止推理爲雪=狼。

將分類作爲決策支持系統

阿姆斯特丹UMC的重症監護室希望預測出院時患者再入院和/或死亡的可能性。目標是幫助醫生選擇將病人移出ICU的合適時機。如果醫生了解模型正在做什麼,就更有可能在做最終判斷時使用它的建議。

爲了展示如何使用LIME解釋這種模型,我們可以看另一個旨在早期預測ICU死亡率的研究。其使用了隨機森林模型(黑盒模型)預測死亡率情況,使用LIME局部解釋每個患者的預測分數。

clipboard.png

來源:https://www.researchgate.net/...

來自所選樣本中的一個患者被預測具有高死亡概率(78%)。導致死亡的模型特徵爲更高的房顫次數和更高的乳酸水平,這與當前的醫學理解是一致的。

人類和機器 - 完美搭配

爲了在構建可解釋的AI方面取得成功,我們需要將數據科學知識、算法和最終用戶的專業知識結合起來。創建模型之後,數據科學的工作還沒有結束。這是一個可迭代的、經由專家提供反饋閉環的通常很漫長的過程,以確保結果是可靠的並且可被人類所理解。

我們堅信,通過結合人類的專業知識與機器的性能,我們可以獲得最佳結論:改進機器結果並克服人類直覺的偏差。


參考資料:

On-line and web-based: Analytics, Data Mining, Data Science, Machine Learning education:https://www.kdnuggets.com/edu...
Software for Analytics, Data Science, Data Mining, and Machine Learning:https://www.kdnuggets.com/sof...

相關信息:

Are BERT Features InterBERTible:https://www.kdnuggets.com/201...
Artificial Intelligence and Data Science Advances in 2018 and Trends for 2019:https://www.kdnuggets.com/201...
The year in AI/Machine Learning advances: Xavier Amatriain 2018 Roundup:https://www.kdnuggets.com/201...

作者:Olga Mierzwa-Sulima,Appsilon高級數據科學家和項目負責人

譯者:TalkingData 鍾大偉

原文地址:https://www.kdnuggets.com/201...

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章