p1 in 2019/12/3
論文名稱:Event Representation Learning Enhanced with External Commonsense Knowledge
… … … :常識信息增強的事件表示學習
論文作者:丁效,廖闊,劉挺,段俊文,李忠陽
論文來源:EMNLP2019
下載鏈接:https://arxiv.org/pdf/1909.05190.pdf
源碼鏈接:https://github.com/MagiaSN/CommonsenseERL_EMNLP_2019
參考筆記:https://www.jiqizhixin.com/articles/2019-09-16-9
Abstact
- 以前的方法:獲取文本的語法和語義信息,並在下游任務(如腳本事件預測)中證實了有效性。
- 以前方法的不足:從原文直接抽取的事件缺乏常識信息,如事件參與者的意圖和情緒(這有利於區分事件對,因爲從表面上看,他們只有細微差異)。
- 本文的方法:利用外部常識來了解事件的意圖和情緒。
- 本文的實驗數據集:1)event similarity事件相似性;2) script event prediction腳本事件預測;3)stock market prediction股票市場預測。
Commonsense Knowledge Enhanced Event Representations
2.1 Low-Rank Tensor for Event Embedding
事件表示學習的目的爲事件三元組E=(A, P ,O)學習低維稠密的向量表示,其中P是動作或謂詞,A是行爲人或主語,O是行爲對象或賓語。事件表示模型對謂語、主語、賓語的表示進行組合。
本文沿用Ding等人(2015)的方法,使用張量神經網絡(Neural Tensor Network,NTN)作爲事件表示模型。NTN的結構如圖3所示:
模型使用雙線性變換顯式地建模謂語與主語、謂語與賓語及三者間的交互關係。具體公式如下:
其他的參數是一個標準的前饋神經網絡,W1爲前饋神經網絡的權值,b爲偏置,f=tanh爲激活函數。
NTN的一個問題是“維度災難”,因此本文使用low-rank tensor decomposition來模擬高階tensor以減少模型的參數數量。Low-rank tensor decomposition的過程如圖4所示。具體地,將原來張量神經網絡中的張量T1使用[Tappr]1近似,[Tappr]1每個切片的計算方法爲:
對於訓練集中出現的事件,本文隨機將事件的一個論文替換爲另一個單詞。本文假設原始事件應比替換後的事件具有更高的得分,並計算兩個事件的合頁損失:
其中,ve爲事件的向量表示,ver爲替換事件成分後的向量表示,g(ve)爲事件的得分,計算方式如下:
2.2 Intent Embedding
類似地,對於訓練集中的每個事件,有一個人工標註的正確意圖,我們從所有意圖中隨機採樣一個錯誤的意圖,認爲正確的意圖應該比錯誤的意圖具有更高的得分。具體地,我們使用雙向LSTM得到意圖文本的向量表示,並使用意圖與事件向量的餘弦相似度作爲意圖得分,計算合頁損失:
其中,vi爲正確意圖的向量表示,vir爲替換事件成分後的向量表示。
2.3 Sentiment Embedding
同時,對於訓練集中的每個事件,有一個標註的情感極性標籤(0-消極,1-積極)。我們將事件表示作爲特徵輸入分類器,訓練該分類器預測正確情感標籤的能力,從而使事件表示中帶有情感極性信息,計算情感分類的交叉熵損失:
其中,E爲訓練集中事件的集合,plg(xe)爲事件正確的情感極性標籤,pl(xe)爲模型預測的事件情感極性標籤。
2.4 Joint Event, Intent and Sentiment Embedding
最終的優化目標爲三部分損失的加權和:
模型的整理架構如圖2所示:
(融合意圖、情感信息的事件表示模型架構)
注:所有下標爲neg的,均爲負樣本
Experiments
3.2 Event Similarity Evaluation
本文在Hard Similarity和Transitive Sentence Similarity兩個事件相似度任務上對比了模型與基線方法的效果。
Hard Similarity任務由Weber等人(2018)提出,該任務構造了兩種類型的事件對,第一種事件對中,兩個事件語義相近,但幾乎沒有單詞上的重疊;第二種對事件中,兩個事件單詞上重疊程度較高,但語義相差較遠。對每種事件表示方法,本文計算每個事件對的餘弦相似度作爲得分,並以相似事件對得分大於不相似事件對得分的比例作爲模型的準確率。
Transitive SentenceSimilarity數據集(Kartsaklis與Sadrzadeh,2014)包含了108個事件對,每個事件對帶有由人工標註的相似度得分。本文使用Spearman相關係數評價模型給出的相似度與人工標註的相似度的一致性。
表1 事件相似度實驗結果
兩個任務的結果如表1所示。本文發現:
(1) 在Transitive SentenceSimilarity任務上,詞向量均值的方法取得了很好的結果,但在Hard Similarity任務上結果很差。這主要是因爲HardSimilarity數據集是專門爲了區分“重疊詞較多但語義不相似”“重疊詞較少但語義相似”的情況。顯然,在這一數據集上,詞向量均值的方法無法捕獲事件論元間的交互,因此無法取得較好的效果。
(2) 基於Tensor 組合的模型(NTN, KGEB, RoleFactor Tensor, Predicate Tensor)超過了加性(Additive)模型(Comp.NN, EM Comp.),表明基於Tensor組合的方法可以更好地建模事件論元的語義組合。
(3) 本文的常識知識增強的事件表示方法在兩個數據集上均超過了基線方法(在Hard Similarity小數據集和大數據集上分別取得了78%和200%的提升),表明常識知識對於區分事件具有重要的作用。
表2展示了Hard Similarity任務上加入常識信息前(oScore)/後(mScore)事件相似度的變化。
表2 加入常識信息前後事件相似度變化
3.3 Script Event Prediction
腳本事件預測(Chambers與Jurafsky,2008)任務定義爲:給定上下文事件,從候選事件中選出接下來最有可能發生的事件。
本文在標準的MCNC數據集(Granroth-Wilding與Clark,2016)上驗證模型的效果。本文沿用Li等人(2018)的SGNN的模型,僅僅用本文的事件表示模型代替SGNN中的事件表示部分。表3中的實驗結果顯示,本文的方法在單模型上取得了1.5%的提升,在多模型ensemble上取得了1.4%的提升,驗證了更好的事件表示在該任務上的重要性。觀察到,僅僅融入意圖的事件表示超過了其他基線方法,表明捕獲參與者的意圖信息可以幫助推理他們的後續活動。另外發現只融入情感信息的事件表示也取得了比原始SGNN更好的效果,這主要是因爲順承事件間情感的一致性也可以幫助預測後續的事件。
表3 腳本事件預測實驗結果
3.4 Stock Market Prediction
前人的研究顯示新聞事件會對股價的漲跌產生影響(Luss與d’Aspremont,2012)。本文對比了使用不同事件表示作爲特徵預測股市漲跌的結果,如圖5所示。該實驗結果顯示了事件中的情感信息在股市預測任務上的有效性(取得了2.4%的提升)。
圖5 股市預測實驗結果
Conclusion
要讓計算機充分理解事件,需要將常識信息融入事件表示之中。高質量的事件表示在腳本事件預測、股市預測等許多下游任務上具有重要的作用。本文提出了一個簡單而有效的事件表示學習框架,將意圖、情感常識信息融入事件表示的學習之中。事件相似度、腳本事件預測、股市預測三個任務上的實驗結果表明,本文的方法可以有效提高事件表示的質量,併爲下游任務帶來提升。
References
- Erik Cambria, Soujanya Poria, Devamanyu Hazarika, and Kenneth Kwok. 2018. Senticnet 5: discovering conceptual primitives for sentiment analysis by means of context embeddings. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence(IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018.
- Nathanael Chambers and Dan Jurafsky. 2008. Unsupervised learning of narrative event chains. In Proceedings of ACL-08: HLT,pages 789–797. Association for Computational Linguistics.
- Xiao Ding, Yue Zhang, Ting Liu, and Junwen Duan. 2014. Using structured events to predict stock price movement: An empirical investigation. In Proceedings of the 2014 Conference on Empirical Methods inNaturalLanguageProcessing,EMNLP2014,October 25-29, 2014, Doha, Qatar, A meeting of SIGDAT, a Special Interest Group of the ACL, pages 1415–1425, Doha, Qatar. Association for Computational Linguistics.
- Hannah Rashkin, Maarten Sap, Emily Allaway, Noah A. Smith, and Yejin Choi. 2018. Event2mind: Commonsense inference on events, intents, and reactions. In Proceedings of the 56th Annual MeetingoftheAssociationforComputationalLinguistics (Volume 1: Long Papers), pages 463–473. Association for Computational Linguistics.
- Zhongyang Li, Xiao Ding, and Ting Liu. 2018b. Generating reasonable and diversified story ending using sequence to sequence model with adversarial training. In Proceedings of the 27th International Conference on Computational Linguistics, pages 1033– 1043, Santa Fe, New Mexico, USA. Association for Computational Linguistics.