【智能司法】可解釋的Rationale增強罪名預測系統

來源 | AI小白入門
原文鏈接
在這裏插入圖片描述

論文標題:Interpretable Rationale Augmented Charge Prediction System  
論文來源:COLING 2018   
論文鏈接:https://www.aclweb.org/anthology/C18-2032/

引言

任務定義

罪名預測(Charge prediction)是智能司法領域最熱門的任務之一。其任務定義爲:罪名預測任務旨在通過分析案件的事實描述(fact description)來確定案件的最終罪名,例如搶劫罪、盜竊罪或欺詐罪。

目前大多數工作通常將罪名預測視爲基於事實描述文本的分類問題,並取得了一系列不錯的進展。但是,在司法領域,每個決定都可能是生死攸關的問題,因法官和律師很有必要了解機器判決的依據。倘若機器自動判決只給出最終結果而不提供任何解釋,那麼人們將無法信任機器的判決。

可解釋性

可解釋性意味着AI系統能夠解釋其預測的能力,並且已經引起越來越多的關注。Hendricks et al.[1] 將可解釋性分爲二大類:Introspection explanation和Justification explanation。

  • Introspection explanation:解釋模型如何確定其最終輸出。例如:考慮罪名和法條的高度相關性,Luo et al. [2] 引入法條信息來提高罪名預測的準確性。與此同時,和該次預測相關的法條也可以被視爲對罪名預測的一種可解釋性。

  • Justification explanation:該方法生成一些句子,這些句子作爲支撐系統預測結果的相關依據。例如:Ye et al. [3] 考慮將法院觀點(court view)作爲罪名的解釋。因此,他們使用charge conditioned Seq2Seq模型,根據案件的事實描述和給定的罪名標籤來生成法院觀點。

本文貢獻

本文主要的創新點是提出了一種基於神經網絡的系統來探索罪名預測任務中的可解釋性問題。首先,作者使用深度強化學習方法來提取事實描述中的rationales(基本原理/解釋/依據),這些rationales意味着從輸入文本中提取簡短且具有決定性的文字片段。然後將rationales信息融入到分類模型中,以提高預測的準確性。

自然而然,提取的rationales可以作爲對模型預測結果的一種可解釋性,從而提高了模型的透明度。這項工作中聚焦於Introspection explanation。實驗結果表明,本文提出的方法能夠與人工註釋高度一致地提取rationales,並且在預測準確性方面可與經典的基於注意力模型相媲美。

難點:

  • rationales的粒度難以掌握:句子級粒度太粗,不夠具體,而單詞級太細從而失去了可讀性。
  • 難以獲得具有rationales註釋的語料庫。
  • 在具有較高解釋性的同時提高預測準確性的方法非常必要,但目前研究很少。

模型

Interpretable Rationale Augmented Charge Prediction System

如圖所示,該系統將案件的事實描述作爲輸入,並輸出預測的罪名以及rationales(依據)。Rationales在預測過程中起着重要作用,因此可以將其視爲罪名預測的解釋。該系統由兩個主要組件組成:提取器(Extractor)和分類器(Classifier)。

本文首先採用深度強化方法學習方法訓練Extractor,然後凍結Extractor的參數,使用Extractor獲取每個詞的重要性,並使用每個詞的重要性對所有單詞的RNN隱藏狀態進行加權求和,用於進行罪名預測。

接下來使用數學語言來定義該任務。首先將輸入的事實描述定義爲單詞序列x=[x1,x2,...,xn]x=[x_1,x_2,...,x_n],罪名標籤yy爲非負整數。給定xx,首先抽取基本原理(rationales)r={xizi=1,xix}r=\{x_i|z_i=1,x_i\in x\},其中zi{0,1}z_i \in \{0,1\}。然後基於rrxx預測最終罪名。

Phrase-level Rationale Extraction

考慮到詞片段作爲rationales在語義上應該更完整,因此本文用短語(而不是單詞)來表示事實描述。作者將事實描述分爲最大長度爲6的短語,此時短語級的事實描述可以表示爲:xp=[x1p,x2p,...,xmp]x^{p}=[x^{p}_1,x^{p}_2,...,x^{p}_m],其中xipx^{p}_i代表事實描述中的第ii個短語,而xipx^{p}_i的短語嵌入爲該短語中包含的詞對於的詞嵌入求平均。

整個Phrase-level Rationale Extraction的過程如圖所示,首先短語xipx^{p}_i通過Embedding Layer之後過一個Bi-RNN Layer,然後到Selection Layer,Selection Layer用於計算p(zt)p(z_t),其計算方式爲:

其中ff^\rightarrowff^\leftarrow爲Bi-RNN functions,hth^\rightarrow_t爲隱藏層輸出。

在Extractor中,根據概率p(zt)p(z_t)採樣得到ztz_t,其中zi{0,1}z_i \in \{0,1\}。抽取的Rationales是r={xipzi=1,xipxp}r=\{x^p_i|z_i=1,x^p_i \in x^p\}

其中Rationales的抽取學習需要獎勵功能來指導。因此,本文引入
一個2層的RNN模型作爲Rewarder,用於對rr進行建模。rr的最終嵌入取最後的hidden層進行concatenation:

損失函數爲:

爲了控制Rationales的數量,作者在zz上引入了一種新穎的懲罰,即Φ(z)=zη\Phi(z)=|||z||- \eta|,以控制z||z||不至於太小或太大而在η\eta附近。其中η\eta是常數,本文取η=7\eta=7

Rewarder部分的反饋體現的梯度的更新,本文使用Lei et al. [4]更新梯度。

Rationale Augmented Charge Prediction

本部分將利用Extractor生成的基本信息來訓練Classifier。經過之前的訓練,Extractor已經具備推斷rationales的能力。

爲了更好地利用rationales信息並使罪名預測更加準確,本部分設計了一個基於rationales增強機制的RNN模型。給定事實描述詞序列x=[x1,x2,...,xn]x=[x_1,x_2,...,x_n],第ll層在時間tt的隱藏狀態定義如下:

其中ff是單向RNN函數。事實描述在第ll層的表示由ll層中所有隱藏狀態的加權總和得出。在此,p(z)p(z)被視爲事實描述的重要性分佈。從預訓練的提取器中獲取權重ata_t,其由softmax層基於p(ztx)p(z_t|x)計算得到。更確切地說:

事實描述的最終表示爲每個RNN層中表示串聯得到:

然後通過激活函數:

損失函數爲:yy22||y^--y||^2_2

實驗

實驗結果

再來看看實驗結果,本文選用了BiGRUBi-GRU,BiGRUattBi-GRU_att,OURSOURS^-作爲baseline。其中OURSOURS^-方法和OURSOURS唯一的不同是:rationales 不是由phrase組成的。

Case Study

不同方法對比效果:

本文方法:

參考文獻:
[1] Generating visual explanations.
[2] Learning to predict charges for criminal cases with legal basis.
[3] Interpretable charge predictions for criminal cases: Learning to generate court views from fact descriptions.
[4] Rationalizing neural predictions.
[5] Interpretable Rationale Augmented Charge Prediction System.

歡迎關注【AI小白入門】(ID: StudyForAI),分享Python、機器學習、深度學習、自然語言處理、人工智能等技術。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章