本文爲ACL 2019的論文A Cross-Domain Transferable Neural Coherence Model的讀後感。
1. 論文主旨
本文主要是面向跨領域的連貫性建模的相關研究。採用的是一個局部判別模型,可以使用更少的負樣本來訓練識別不正確的句子順序。實驗證明他們採用的方法既簡單又能夠在WSJ上顯著的超過當前最好的方法,在開放域上更是取得了很好的效果。
2. 論文的起點
現有的連貫性模型都是特定領域的,這樣會使得模型捕獲到的不一定是語義上的連貫,而是結構線索的過擬合。
2.1 本文想要解決的兩個問題
- 判別模型容易在特定數據集上過擬合。
- 判別模型有大量的負樣本,但是採樣時只採樣了一部分,難以覆蓋全體。
2.2 本文的基礎
- 全局的模型是非常重要的。
- 長依賴仍然難以解決。
- 根據中心理論,全局的最優解也是能夠通過局部的最優解不斷逼近的。
- 想通過找到更加泛化的局部模型來獲得更好的全局性能。
3. 論文貢獻
- 通過一種新的局部判別神經模型,我們糾正了判別模型不能夠很好的推廣到跨領域的連貫性評分任務。(我個人認爲這主要依賴於它的模型的句子編碼器和簡單的連貫性判別模塊,避免了過擬合的存在。)
- 提出了一個跨領域的連貫性數據集以及增量式的評估方法(由簡單到嚴格準則)。
- 我們的方法在WSJ語料上顯著優於其他模型,在開放領域上也是一樣。
- 即使使用簡單的句子編碼器,我們的模型也很厲害。
4. 具體做法
4.1 基本假設
全局的連貫性可以由局部的兩個句子的連貫性平均得到。
4.2 模型
採用的模型很簡單,首先使用句子編碼器將句子S和T編碼,並將編碼後的向量進行一些操作後拼接送入分類器中。
4.3 一些小技巧
- 訓練目標是既要保證正例更連貫(接近1),也要保證負例更加不連貫(接近0)。(這種思想很有用)
- 改寫了損失函數,保證符合訓練目標。
- 也是用了負採樣
- 也採用了雙向建模(和 )以及(和 ),最後取平均。
4.4 實驗任務
- 判別任務,即判別兩個句子是否是連續的兩個句子。
- 插入任務,判斷句子最該插入在一個段落的哪個位置。
- 重建任務,將段落中的句子重新排列到正常順序。
4.5 評估方法
本文在開放域數據集彙總提出了3種評估方法:
- Wiki-A。這個方法在同一個領域下7種類別同時進行訓練和預測。(同領域訓練和預測)
- Wiki-C。這個方法在同一領域下6個類別中訓練,在另外1個類別下進行預測。(同領域訓練和預測,但是類別不同)
- Wiki-D。這個方法在一個領域下所有類別中訓練,但是在另一個領域上評估。(不同領域訓練和預測)
4.6 實驗結果
下圖中的LCD-G(使用Glove向量取平均)和LCD-I(使用預訓練的InferSent)個LCD-I(使用RNN作爲語言模型後最大池化其隱藏層)爲本文提出的模型。
4.6.1在WSJ上的實驗結果
4.6.2在Wiki上的三個評估方法的結果
4.6.3 段落重排任務
5. 新知識點
- 如何判斷兩個句子是否連貫?
默認的是如果兩個句子是上下句,那麼認爲是連貫的,否則就是不連貫的。 - 衡量連貫性的理論有哪些?
中心理論(Centering Theory),修辭結構理論(Rhetorical Structure Theory)。
主要考慮的是局部的實體和詞彙的轉移,也有話題的轉移。 - 判斷連貫性的模型有哪些?
主要有判別式模型(discriminative model)和生成式模型(generative model)。其中判別式主要是對於已知句子編碼後,再對2個句子進行判別,一般的只能對於已知的句子進行判別。而生成式模型一般使用S2S模型等將兩個句子同時編碼,從而隱式的包含了兩個句子之間的連貫性。這個在Neural Net Models of Open-domain Discourse Coherence中有所講解。
6. 還有哪些問題?
- 本文由於成文較早,沒有與現有的流行的預訓練模型(如BERT)比較,因爲BERT同樣有NSP下一個句子預測的任務,而且是做的非常好了,不知道能否應用到此模型中作爲編碼器使用。
- 作者這種模型嚴格上來講就是生成式模型和判別式模型的結合,它能夠靈活的對句子進行編碼,而後用比較簡單的判別方法對連貫性進行判別,但是這種方法在封閉域內非常有效的同時,在開放域也特別有效。
- 本文的評估內容特別多,在實驗安排上稍微有些混亂。比如在後面的Wiki語料庫上沒有將3個方法都進行評估,而在WSJ上同樣只評估了2個任務,個人猜測可能是其性能不夠顯著。
7. 值得看的引文
- 將連貫性用於作文評分:
Evaluation of text coherence for electronic essay scoring systems. (2004) 本文有關於中心理論的相關介紹,也有評估論文好壞的一些方面介紹,如其中一個爲中心轉移(表5)。 - 讓文本生成更加連貫:Learning to Write with Cooperative Discriminators(2008)
- 連貫性評估方法:Modeling Local Coherence: An Entity-Based Approach(2008)本文提出了基於實體的連貫性建模方法,不過更有用的是,它提出了3種評估連貫性的任務:句子排序(Sentence ordering),摘要連貫打分(summary coherence rating)以及可讀性評估(Readability assessment)。
本文也提到了很多實體網格(entity grid)相關的連貫性判別方法。
8. 常用短語
can efficiently learn against incorrect orderings.
能夠有效地學習不正確的順序。
our new method outperforms previous methods by a significant margin on ...
我們的新的方法顯著優於之前的模型在…
our method frequently outperforms previous methods
我們的方法經常優於之前的模型。
as we will demonstrate later in the experiments,...
正如我們在後面實驗中展示的那樣…
prohibitively large
特別的大
denote X as Y
將X表示成Y
9. 新單詞
fluidly
流暢的
plausible
合理的
interchageably
交替使用
vice versa
反之亦然
leverage
利用