Motivation:
基於轉移的依存句法分析方法在保證分析效率的同時也能達到滿意的準確率。和人工構造特徵的方法相比,陳丹琪等人(Chen)使用神經網絡和貪心算法構造了基於轉移的依存句法解析器。其效果雖優於人工方法但仍沒有達到state-of-the-art。因此本論文對Chen提出的模型進行了一些改進,在模型的輸出部分添加了感知機層,同時使用大量的無監督數據,結果取得了最高的準確率。
模型結構:
模型的總體結構如下圖所示,可以發現其實是在Chen模型的基礎上多添加了一個隱藏層和感知機層。 Chen模型的最後一層直接使用Softmax輸出每一個操作概率,而這篇文章將Softmax輸出和前面兩個隱藏層的輸出連接起來作爲感知基層的輸入。給出的解釋是能利用神經網絡更多的信息。
本文的模型結構
Chen的模型
利用無監督數據:
本文的創新點在於:爲了提高模型的效果,本文在使用預訓練詞向量的同時,對於未登錄詞的初始化採用和預訓練詞向量相同的分佈。然而獲取更多的訓練數據往往比一個好的初始化更重要,本文采用“tri-train”將解析器生成的auto數據作爲gold數據。具體做法爲:用兩個解析器對同一個句子進行處理,如果兩個解析器生成的依存樹一樣,就把這個句子作爲gold數據。實驗發現,通過“tri-train”往往能提高1%的準確率。
實驗步驟:
這篇論文實際就是進行大量的消融實驗,主要包括:
- 隱藏層是1層還是2層;
- 是否使用“tri-train”處理無監督數據;
- 是否使用預訓練的詞向量;
- Beam search和貪心算法確定輸出序列;
- 單詞,詞性和標籤的嵌入維度;
- Beam-size的大小(B=1,8,16,32)。
實驗結果:
圖片太多,參考論文https://arxiv.org/pdf/1506.06158.pdf
啓發:
- 創新不夠的話就瘋狂堆數據;
- 進行消融實驗研究不同配置下模型的效果,爲下一步實驗指明方向。