論NLP可解釋的評估:什麼纔是“好”的解釋?

©PaperWeekly 原創 · 作者|李濼秋

學校|浙江大學碩士生

研究方向|自然語言處理、知識圖譜

前言

深度學習模型已經成爲 NLP 的標準工具,在解決許多問題上大顯神通。然而其黑盒性質也成爲一大問題,對系統的可控性、可信任度都造成影響。在醫療、金融等領域,對模型可解釋的需求都日益增加。

目前,NLP 的可解釋領域中已經有了不少工作,比如:

  • 基於 probing task 測試模型的語義理解能力

  • 從模型的 embedding、activation、attention 到 saliency 的可視化分析

  • 構造特定語言現象的 challenge set 作某種方面質量評估的

  • 用各種啓發式方法生成 adversarial sample 分析模型魯棒性的

  • 生成模型預測的自然語言解釋文本(NL Explanation Generation)

  • 尋找簡單的替代模型,或者將模型的局部分類面簡化(LIME 等)

  • ……

等等。以上每一條線都有許多不同的工作,感興趣的讀者可以從這篇概述入手瞭解。

但是或許我們需要先回答一個更加基本,也更核心的問題:

如何評估解釋的好壞?

如果沒有一個直接的、統一的標準,又有什麼制定標準的原則可以是值得參考和遵守的?

據個人目前瞭解,還沒有工作提出一個能說服大部分人的解釋的標準——或者只能定性而非定量分析(例如可視化方法),或者很大程度基於主觀認識(例如 contrast set,或者和人工標註進行對比等),或者不能從根本上說明問題(例如對抗方法),有的甚至沒有辦法和其他方法進行比較孰優孰劣…… 說白了,所有人都像是在摸着石頭過河。

但是,如果不將這一問題說明白,建立共識性的認知,那麼可以說所有的解釋工具都只是自說自話,解釋也將和深度學習本身一樣化爲“玄學”(甚至比玄學更玄,因爲我們甚至不知道目標在哪裏),再多 fancy 的 technique 也只會使我們離真實越來越遠。

而這也正是目前大家所關心和糾結的問題:

https://www.zhihu.com/question/341190239

於是,本文將解讀一篇發表在 ACL 2020 的綜述文章 Towards Faithfully Interpretable NLP Systems: How Should We Define and Evaluate Faithfulness?,分享其中關於可解釋評估的一些現狀分析和思考。(當然,或許僅憑藉這一篇文章也無法給出正確的結論,但是至少它可以提供了一些討論的基礎)

爲了節約大家時間,先把文章的結論放在這裏,可以快速跳到相關的內容:

1. 可解釋的評估包含似然性和忠實性的評估,而人的參與只會把評估變爲似然性評估,對證明模型具有真正的可解釋能力——即忠實性方面毫無用處。

2. 忠實性的評估可以分爲三個基本的原則假設,即模型假設、預測假設和線性假設(關於具體假設的內容請見下文)。

3. 忠實性不應該是一個“是”或“否”的評估,不然完全忠實的模型如同真空中的球形雞,是不存在的。我們應該在更細微的“灰度”上評估忠實度,即使這些解釋不具有全局性和明確的忠實性,也可以使解釋有用。

NLP可解釋領域現存的問題

1. 當前的解釋方法受實際用例和應用程序的啓發,以非常特殊性(而非普遍性)的方式定義解釋。但是,這種視角通常無法區分解釋質量的各個方面,例如可讀性(readability),似然性(plausibility)和忠實性(faithfulness——Herman,2017 年)。

2. 此外,儘管很多工作可能會隱式或顯式地評估對特定解釋技術的忠誠度,但對忠誠度並沒有統一和正式的定義。

3. 最後,當下還有一種趨勢:將忠實性視爲二元屬性,然後說明解釋方法不忠實。本文認爲這是徒勞的——幾乎不可能完全滿足這些假設,並且通過反例來證明一種解釋方法的真實性也太容易了。

針對以上內容,本文的貢獻可以總結如下:

  • 對於第 1 點和第 2 點,本文對忠實性作出了定義:和似然性無關,忠實的解釋可以準確地表示模型預測背後的推理過程。並且本文認爲,在要求解釋如實的情況下,不完善或誤導性的評估可能會造成災難性的影響。

  • 本文通過明確所有可解釋的嘗試背後的三個假設,將看似不同的評估方法串聯起來,並提供了有關忠實的理想屬性的討論基礎。

  • 對於第 3 點,本文主張在實踐中對忠誠度有更實際的看法,採用分級標準來衡量一種解釋在實踐中是否忠實的程度和可能性。對於某個特定領域,如何構建這些標準的確切形式以及設計針對性的具體評估方法,是未來工作的主要挑戰。

以下將詳細說明。

區分忠實性與似然性

似然性(plausibility)和忠實性(faithfulness)是兩個特別值得注意的標準:似然性是指對人類的解釋令人信服,而“忠誠”則是指它能準確反映模型的真實推理過程(Herman,2017;Wiegreffe and Pinter,2019)。

此處參考文獻:

arxiv 2017,《The promise and peril of human evaluation for model interpretability》EMNLP 2019,《Attention is not not explanation》

如果只考慮符合其中一個性質,這是很容易做到的。例如,考慮通過事後(post-hoc,即模型預測後)文本生成進行解釋的情況,其中一個額外的“生成器”組件輸出模型決策的文本說明,並在用文本解釋作爲監督信號的情況下學習生成器(Zaidan 和 Eisner,2008;Rajani 等,2019;Strout 等,2019)。在這種情況下,似然性是主要屬性,而不能滿足忠實性。

儘管這兩個標準之間存在差異,但許多作者並沒有明確區分,有時甚至將兩者混爲一談:

  • NIPS 2017,《A unified approach to interpreting model predictions》

  • arxiv 2018,《Evaluating neural network explanation methods using hybrid documents and morphological prediction》

  • arxiv 2018,《Faithful multimodal explanation for visual question answering》

而且,即使明顯屬於某個陣營,大多數工作也沒有明確列出要考慮的標準:

  • arxiv 2018,《A humangrounded evaluation benchmark for local explanations of machine learning》

  • arxiv 2016,《”what is relevant in a text document?”: An interpretable machine learning approach》

  • arxiv 2018,《Looking deeper into deep learning model: Attribution-based explanations of textcnn》

  • arxiv 2019,《A human-grounded evaluation of SHAP for alert processing》

我們認爲這一混淆很危險,缺乏明確的主張可能會給該技術的潛在用戶帶來錯誤的信息,這些用戶不熟悉其內部工作原理。因此,必須明確區分這些術語。

2019 年 microsoft 的一篇論文《Interpreting interpretability: Understanding data scientists use of interpretability tools for machine learning》指出,儘管沒有保證,即使是專家也傾向於過於相信解釋的真實性。

固有的解釋性

通常的解釋性方法分爲以下兩類:

  • 通過事後方式解釋現有模型;

  • 設計固有可解釋的(inherently interpretable)模型。 

Rudin(2018)主張使用固有可解釋的模型,該模型在設計上聲稱比黑箱模型的事後解釋提供了更多忠實的解釋(2018 arxiv,《Please stop explaining black box models for high stakes decisions》)。

本文認爲不能以表面價值來論證這一觀點:所謂某個方法“固有地可解釋”是需要驗證的主張。確實,雖然注意力機制被認爲具有“固有的可解釋性“(Ghaeini 等人,2018; Lee 等人,2017),但最近的工作使人們對其忠實性產生懷疑(Serrano 和 Smith,2019; Jain 和 Wallace,2019; Wiegreffe 和 Pinter,2019年)。

這裏就不得不提到之前的一篇《The elephant in the interpretability room: Why use attention as explanation when we have saliency methods?》,對注意力解釋方法的侷限性和對應的顯著性方法作出詳細闡述。可以閱讀以下本人的解讀進一步瞭解:https://zhuanlan.zhihu.com/p/287126616

通過效用評估

儘管解釋有許多不同的用例,例如模型調試,合法保證或對健康至關重要的保證,但另外一個具有突出評價文獻的可能用例是通過人機交互(HCI)實現的自動模型的智能用戶界面(IUI)來協助人類決策者。在此進行解釋的目的是增加用戶與系統之間的信任度,爲用戶對系統的決定是否可能正確提供更多的微妙依據。

在一般情況下,最終評估指標是用戶在執行任務時的表現(Abdul 等人,2018)。例如,Feng 和 BoydGraber(2019)在瑣事問答環境中評估了模型的各種解釋。

此處引用:2018,CHI,《Trends and trajectories for explainable, accountable and intelligible systems: An HCI research agenda.》2019,IUI,《What can ai do for me? evaluating machine learning interpretations in cooperative play.》

但是,在忠實性的語境下,我們也必須警告拒絕受到基於人機交互(HCI)的評估:在這種情況下,提高績效並不意味着忠實的指示;相反,它只能表明解釋的似然性與模型的性能之間存在的相關性。

舉個例子,假設 HCI 評估環境中有一個不忠實的解釋系統:給出的解釋是文本輸入的熱圖,將分數歸因於各種標記。假設系統說明的行爲如下:當輸出正確時,說明由隨機的內容詞組成;當輸出不正確時,它由隨機標點符號組成。

換句話說,當模型正確時,這種解釋更有可能看起來合理,而同時又沒有反映模型的真實決策過程。使用者通過更美觀的解釋深信不疑,因此使用該系統的效果更好。但是,這種解釋始終聲稱隨機標記與模型的推理過程高度相關。儘管該系統特別有用,但解釋所給出的主張並不能反映模型的決策。

儘管上述情況是極端的,但這種誤解並非完全不可能,因爲可信度與模型性能之間的任何程度的相關性都會導致用戶性能的提高,而與忠誠度的概念無關。

這裏的分析可以看出,所有基於可視化的方法的評估都無法證明解釋的忠實性。然而,目前幾乎所有的文章都是拿幾個熱力圖比較一下,感性分析……

忠實性評估的幾條指南

破了這麼多舊觀念,終於該到立論的部分了——

本文提出以下準則來評估解釋的真實性。這些指南解決了我們在文獻中觀察到的常見陷阱和次優實踐的問題。

  • 明確評估對象。混用似然性和忠實性是有害的:應該明確評估其中一個,並針對每個評估使用適當的方法。當然,在設計解釋技術時也應如此-明確要優先考慮的屬性。

  • 忠實度評估不應包括對解釋質量的判斷。我們注意到:(1)人類無法判斷一種解釋是否忠實:如果他們理解了模型,那麼解釋就沒有必要了;(2)由於類似原因,我們也無法獲得對此問題的監督。因此,人的判斷不應參與對忠誠度的評估,因爲人的判斷會衡量似然性。

這似乎是一個悖論:因爲無法理解模型內部發生的事情,所以需要可解釋方法;但是因爲無法理解模型,我們也難以確定解釋是否忠實反映了模型內部的決策過程…… 因此,對於忠實性最好的評估還是基於某些客觀指標!

  • 忠誠度評估不應涉及人爲提供的金標準。我們應該能夠解釋與正確的模型預測相同的錯誤模型預測。依靠金牌的評估方法受到人類先驗對模型應該做什麼的影響,並再次將評估推向了似然性的方向。

  • 不要相信“固有的可解釋性”主張。除非另有證明,否則固有的可解釋性只是一個主張而非事實。“固有可解釋”模型提供的解釋必須遵循與事後解釋方法相同的標準,並使用同一套評估技術對其忠誠度進行評估。

再次強調:注意力之類的方法只具有似然性,但是其對模型的工作方式的解釋非常非常非常有限!具體請參考上面的專欄文章。

  • IUI 系統的忠實性評估不應依賴於用戶表現。HCI 設置中的最終任務用戶性能僅表示似然性與模型性能之間的相關性,但是這種相關性很小。儘管評估某些用例的解釋效用很重要,但它與忠誠度無關。


定義忠實性

那麼,如何定義解釋方法的忠實性?

直觀地,我們希望所提供的解釋能夠在做出決策時反映模型的真實推理過程。但是,什麼是模型的推理過程?如何將推理過程相互比較?

由於缺乏標準定義,不同的工作通過引入測試來衡量他們認爲良好的解釋應該滿足的特性來評估他們的方法。其中一些測試可衡量忠誠度的各個方面。這些臨時定義通常對於每篇論文都是唯一的,並且彼此不一致,因此很難找到共同點。

我們發現了所有這些方法背後的三個假設,使我們能夠沿標準化軸組織文獻,並關聯看似不同的工作方式。此外,公開基本假設可以就其有效性和優點進行知情的討論(我們或其他人將其留給未來的工作)。據我們所知,這些假設包含了研究界對忠誠度的當前有效定義:

假設1(模型假設):當且僅當兩個模型使用相同的推理過程時,它們纔會做出相同的預測。

  • 推論 1.1:如果解釋系統導致對做出相同決策的模型進行不同的解釋,那麼它就是不忠實的。

這一推論可以用作反示例(counter-example)的證明。從理論上講,如果所有可能完美地模仿模型決策的模型也提供相同的解釋,則可以認爲它們是忠實的。相反,表明兩個模型提供了相同的結果卻有不同的解釋,則證明了該方法不具有真實性。

2019,EMNLP,《Attention is not not explanation.》展示瞭如何通過對抗性訓練模型推導這些反例,這些模型可以模仿原始模型,但提供不同的解釋,同時還利用了這一假設來表明某些解釋確實包含有關模型行爲的有用信息。

  • 推論1.2:如果解釋導致的決定與其解釋的模型不同,則它是不忠實的。

一個更直接應用是通過保真度(fidelity)的概念(Guidotti 等,2018;Lakkaraju 等,2019)。對於解釋本身就是能夠做出決策的模型的情況(例如決策樹或規則列表(Sushil 等人,2018)),保真度定義爲解釋模型可以模仿原始模型決策的程度(比如準確性accuracy score)。

對於解釋不是可計算模型的情況,Doshi-Velez 和 Kim(2017)提出了一種通過衆包將解釋映射到決策的簡單方法,方法是要求人們模擬模型的決策而無需訪問模型,而只能訪問輸入和解釋(稱爲正向仿真)。Nguyen(2018)進一步探索並實踐了這一想法。

2018,ACM,《A survey of methods for explaining black box models.》
2019,AAAI,《Faithful and customizable explanations of black box models.》

假設2(預測假設):對於相似的輸入,當且僅當其推理相似時,模型纔會做出相似的決策。

  • 推論2:如果解釋系統爲相似的輸入和輸出提供不同的解釋,則它是不忠實的。

由於解釋是模型“推理”的代理,因此應滿足相同的約束條件。換句話說,對類似決策的解釋應該相似,而對不同決策的解釋應該相似。

這種假設對於證明解釋不具有忠實性更有用,因爲證僞解釋的不忠實需要找到適當的情況,可能證明需要檢查(非常大)令人滿意數量的示例,甚至整個輸入空間。

NLP 社區中最近的一次討論(Jain 和 Wallace,2019 年; Wiegreffe 和 Pinter,2019年,即《Attention is not explanation》和《Attention is not not explanation》的討論大戰)涉及使用這一基本假設來評估注意力熱圖作爲解釋。前者試圖針對每個實例對類似決定提供不同的解釋。後者對前者提出了批評,並在很大程度上基於上述模型假設。

此外,Kindermans等(2019)《The (un)reliability of saliency methods.》建議對輸入空間引入恆定的轉移,並評估解釋是否隨着最終決定保持不變而發生顯着變化。AlvarezMelis和Jaakkola(2018)《On the robustness of interpretability methods.》在術語可解釋性健壯性下正式化了這種技術的概括:解釋應不變於輸入中的小擾動(預測假設的直接結果)。Wolf 等(2019)《A formal approach to explainability.》進一步擴展了這個概念,即“模型解釋的一致性”。不幸的是,由於離散輸入,很難在 NLP 設置中應用魯棒性度量。

假設3(線性假設):輸入的某些部分對模型推理比其他部分更重要。而且,輸入的不同部分的貢獻彼此獨立。

  • 推論3:在某些情況下,熱力圖的解釋可能是不忠實的。

該假設被考慮輸入上的熱圖(例如,注意力圖、顯著性圖)作爲解釋的方法採用,在 NLP 中特別流行。熱圖是關於輸入的哪些部分比其他部分與模型決策更相關的主張。因此,我們可以設計“壓力測試”以驗證它們是否支持其主張。

爲此,一種建議的刪除方法是擦除,根據解釋,將輸入中“最相關”的部分從輸入中刪除,以期模型的決策會改變(Arras 等人,2016;Feng 等人;2018 年;Serrano and Smith,2019年)。否則,可能會刪除輸入中“最不相關”的部分,以期望模型的決定不會改變(Jacovi 等人,2018)。Yu 等(2019)今兒 DeYoung 等(2019)提出了兩種全面性和充分性的度量方法作爲對擦除的正式概括:通過去除高級特徵或僅包含高級特徵對模型的影響程度。

實現忠實的解釋是不可能的嗎?

上述假設目前用於以二進制方式評估忠實度:解釋是否嚴格忠實。具體來說,通過構造假設不成立的案例,它們最常被用來表明一種方法是不真實的(無論是基於attenton,還是基於saliency,還是其他的方法)。

換句話說,對於各種解釋方法,存在通過反例進行證明的明顯趨勢,即它們不是全部忠實的。

然而這種方式的評估是無用的,因爲我們期望這些各種方法能夠持續產生負面(而不是忠實)的結果,從而延續當前的趨勢。這是因爲解釋的作用近似於模型或決策的真實推理過程,因此定義會丟失信息。根據鴿籠原理,在解釋和推理之間會有偏差。

在實踐中,這在衆多顯示對抗行爲或病理行爲分析的工作中得到了觀察,這些行爲或病理行爲是由當前模型的深層非線性和高維決策邊界引起的。此外,由於我們缺乏對哪些模型或決策確實可映射到人類可讀概念的監督,因此我們不能忽略近似誤差。

那麼,如果我們需要一個能提供忠實解釋的系統,我們應該怎麼做?

通往更好的可解釋評估

我們認爲,擺脫目前僵局的方法是採用一種更實用,更細緻的方法來定義和評估忠誠度。我們向社區提出以下挑戰:我們必須對忠實性進行正式的定義和評估,從而使我們可以自由地說出一種方法在實踐中足夠忠實可以用於實用。

在此,我們提出兩種可能的方式:

  1. 跨模型和任務:在特定模型或任務級別的忠誠度(以灰度表示)。也許某些模型或任務可以進行充分忠實的解釋,即使對於其他模型或任務並非如此。例如,該方法可能不忠於某些問答任務,但忠實於情感分析,可能基於這些任務的各種句法和語義屬性。

  2. 跨輸入空間:在輸入空間的子空間級別(如相似輸入的鄰域或奇異輸入本身)上的忠誠度。如果我們能夠在某種程度上確信特定決策的解釋是否忠實於模型,即使該解釋方法不被普遍認爲是忠實的,也只能將其用於特定領域或實例。

結論

本文提出的意見有兩個方面:

首先,可解釋性評估通常包含對忠誠度和真實性的評估。我們應該把這兩個定義分開,只專注於評估忠誠度,而不會影響解釋的說服力。

其次,對忠誠度的評價通常採用二進制“忠實或不忠實”的方式,我們認爲嚴格忠實的解釋是“獨角獸”,這將永遠找不到。相反,我們應該在更細微的“灰度”上評估忠實度,即使這些解釋不具有全球性和明確的忠實性,也可以使解釋有用。

這篇文章我認爲非常值得一讀。可解釋性不應該成爲玄學,有了更系統和科學的評估以後,更好地幫助這一領域發展。

更多閱讀

#投 稿 通 道#

 讓你的論文被更多人看到 

如何才能讓更多的優質內容以更短路徑到達讀者羣體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成爲一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術乾貨。我們的目的只有一個,讓知識真正流動起來。

???? 來稿標準:

• 稿件確係個人原創作品,來稿需註明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向) 

• 如果文章並非首發,請在投稿時提醒並附上所有已發佈鏈接 

• PaperWeekly 默認每篇文章都是首發,均會添加“原創”標誌

???? 投稿郵箱:

• 投稿郵箱:[email protected] 

• 所有文章配圖,請單獨在附件中發送 

• 請留下即時聯繫方式(微信或手機),以便我們在編輯發佈時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公衆號後臺點擊「交流羣」,小助手將把你帶入 PaperWeekly 的交流羣裏。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章