一起讀論文 | 高質量的同行評審意見應該寫哪些內容及如何組織?

導讀:今天分享一篇美國東北大學NLP實驗室發表在NAACL 2019上的研究論文《Argument Mining for Understanding Peer Reviews》。與《一起讀論文|挖掘同行評審意見的價值》一樣,這篇論文也研究同行評審過程。但與之不同的是,這篇論文主要從Argument Mining的角度來理解同行評審意見的內容與結構。在這篇論文中,作者發佈了AMPERE數據集,用最先進的模型在該數據集上進行了Proposition分割與分類兩個任務的實驗,對ACL、ICLR、NeurIPS和UAI等機器學習與自然語言處理領域頂會的審稿意見的內容及結構進行了詳細分析,得出了許多非常有意思的結論。對於喜歡數據挖掘特別是Argment Mining的朋友們來說,非常值得一讀。

在這裏插入圖片描述

研究背景

僅僅在2015年,花費在同行評審上的時間就達到了將近6340萬小時。同行評審機制的價值不言而喻,所有領域的學術文獻都需經過同行專家的評審後才能被髮表在相關期刊或會議集上。換句話說,同行評審機制保證了研究工作的質量。那麼,同行評審意見的一般結構是怎樣的?一份高質量的同行評審意見又具有哪些特點?截止目前,很少有相關的研究工作關注分析同行評審意見的內容與結構,甚至評估它的質量。

研究動機及目的

作者認爲,同行評審意見跟論述寫作非常像,包含了能表達審稿專家對此研究的評估與解釋的論述性的proposition。所以,自動分析出審稿意見中的proposition及其對應的類型對理解審稿意見的構成非常有幫助。在這篇論文中,作者主要在Argument Mining的框架下對同行評審意見的內容與結構進行研究。下圖是一份截取自ICLR的審稿意見的樣例:
在這裏插入圖片描述
在這篇論文中,作者主要關注兩個研究任務:(1)proposition segmentation: 檢測出是proposition的基本的論述性話語;(2)proposition classification:給proposition打上相應的標籤(如evaluation, request)

數據集

因爲沒有標註好的同行評審意見的數據集,作者創建了AMPERE(Argument Mining for PEer REviews)。作者從機器學習和自然語言處理領域的會議(ICLR, UAI, NeurIPS, ACL)上收集了將近14.2K個評審意見,並標註了其中的400個評審意見總共10386條proposition。Proposition的類型有Evaluation,Request,Fact,Reference,Quote以及Non-Arg。
在這裏插入圖片描述
針對數據標註的可信度,作者計算了所有類別下每條審稿意見的標註者間信度指標unitized Kripendorf’s αU\alpha_U分數的平均值。而針對在proposition級別上的數據標註的可信度,作者進一步計算了所有類別下的Cohen’s kk分數。
在這裏插入圖片描述

實驗及結果

作者將proposition分割與分類任務都當做序列標註(Sequence Labeling)問題看待。採用主流的最優模型在AMPERE數據集上進行實驗分析。320個審稿意見共計7999條proposition用作訓練集,80個審稿意見共計2387條proposition用作測試集。在訓練集上採用5折交叉驗證。

數據預處理:句子分割採用Stanford CoreNLP工具,手動將審稿意見中的變量、數學公式、URL鏈接、引用或參考替換爲相應的特殊字符(<VAR>、<EQN>、<URL>、<CIT>)。

模型訓練:(1) CRF:採用Okazaki實現的CRFSuite,主要對l1l_1l2l_2正則器的係數C1C_1C2C_2進行調優;(2) BiLSTM-CRF:採用Reimers和Gurevych實現的BiLSTM-CRF,額外採用ELMo Embedding,最優模型有2層隱藏層,每層100個結點,每層的dropout概率爲0.5。(3) SVM: 採用在Lightening庫中實現的SAGA。(4) CNN:採用Kim實現的CNN,過濾器窗口大小爲3,4,5,每個128個特徵map,dropout概率爲0.5,用100維大小的word2vec詞嵌入。

1. Proposition Segmentation

在這裏插入圖片描述

2. Proposition Classification

在這裏插入圖片描述

分析與討論

作者利用訓練好的BiLSTM-CRF模型在未標註的AMPERE數據上識別Proposition及其類型。

1. Proposition Usage by Venue and Rating

在這裏插入圖片描述
作者發現,ACL和NeurIPS會使用比ICLR和UAI更多的Proposition,而且打1分或5分的審稿意見一般會有更少的proposition。
在這裏插入圖片描述
作者發現,ACL的審稿意見包含了比其他會議更多的Request更少的Fact。特別地,相比較於ICLR的81.5%和UAI的84.7%,94.6%的ACL審稿意見至少有一個Request。
在這裏插入圖片描述
作者發現,評分最高的審稿意見傾向使用很少的Evaluation和Reference,而3分(borderline)至4分(weak accept)的審稿意見則會包含更多的Request。

2. Proposition Structure

Argumentative Structure(論述性的結構)通常是一種支持(support)與攻擊(attack)的關係,揭示了proposition是如何被組織成爲上下文連貫的文本。作者繪製了不同類型的proposition之間相關轉換的概率,對角線上的高概率表明了類型相同的proposition更有可能地被組織在一起。
在這裏插入圖片描述
作者發現,Quote類型除外,一般情況下Quote類型的proposition後面跟着Evaluation。

作者進一步分析了不同會議下不同類型的Proposition之間的轉換概率矩陣。
在這裏插入圖片描述
作者發現,一般情況下,一種類型的proposition後面更有可能跟着同樣類型的proposition。但是,NeurIPS中從reference類型的proposition到non-arg類型的proposition的轉換概率比其他三個會議更加突出。對該問題的進一步分析發現,這主要是因爲模型把許多格式化的頭部字段錯誤地預測爲了reference類型,比如"For detailed review guidelines, see ",它們通常後面跟着諸如"Comments to the author"的被正確預測爲non-arg類型的proposition。

3. Proposition Type and Content

作者還分析了不同類型下常常使用的顯著性詞語,以及不同會議的顯著性詞語的差異。
在這裏插入圖片描述
對於Evaluation類型,所有的會議傾向於關注clarity與contribution。ICLR更多地討論network,NeurIP更多地關注equations。ACL會議則頻繁地對examples進行request。

4. Review Length by Venue and Rating

在這裏插入圖片描述
ACL和NeurIPS比ICLR和UAI有更長的審稿意見,而且打極端分數的(1分或5分)的審稿意見一般比較短,這與proposition數量的趨勢是一致的。


想要了解更多的自然語言處理最新進展、技術乾貨及學習教程,歡迎關注微信公衆號“語言智能技術筆記簿”或掃描二維碼添加關注。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章