CA-RNN

CA-RNN: Using Context-Aligned Recurrent Neural Networks for Modeling Sentence Similarity(CA-RNN:使用上下文對齊的遞歸神經網絡建模句子相似度)
論文通讀:

1. 概要:

大多數RNN專注於基於當前句子對隱藏狀態進行建模,而在隱藏狀態生成過程中,其他句子的上下文信息卻沒有得到很好的研究。在本文中,我們提出了一種上下文對齊的RNN(CA-RNN)模型,該模型在句子對中合併了對齊單詞的上下文信息,以生成內部隱藏狀態。具體來說,我們首先執行單詞對齊檢測,以識別兩個句子中對齊的單詞。然後,我們提出一種上下文對齊門控機制,並將其嵌入到我們的模型中,以自動吸收對齊單詞的上下文以進行隱藏狀態更新

2. 具體工作:

  1. 提出了一個新的上下文對齊RNN模型,其中兩個句子中對齊單詞的上下文被很好地利用以更好地產生隱藏狀態;
  2. 提出了一種上下文對齊選通機制,並將其很好地嵌入到我們的模型中,該機制可以自動吸收相關上下文並減少生成特定隱藏狀態的噪聲;
  3. 我們對兩個句子相似性任務進行了實驗結果的詳盡分析,從而更好地理解了模型的有效性相關工作

3. 模型分解:

  • 神經網絡:
    其模型如下:
    在這裏插入圖片描述
    輸入特徵項:x1,x2,x3,最後h(x)爲輸出。
    layer2爲隱藏層,這裏面的值我們不知道。所有輸出層和輸入層都是隱藏層。
    上述的神經元,計算過程如下:
    在這裏插入圖片描述
    每個輸入值,在一個節點中,有不同的權值,根據不同的權值來計算輸出。
    其中爲矩陣相乘的相關知識,g爲sigmode函數:
    =
  • 損失函數,反向傳播
    損失函數:在這裏插入圖片描述(這裏是交叉熵的形式進行轉換)
    反向傳播:(具體算式略):即採用正向傳播得出的結果與真實值進行比較,得出誤差,然後通過代價函數和誤差推導輸出前一層的神經網絡的誤差,然後通過得出的誤差一直向前推導,直到輸入層的下一層,然後再通過調整權值,調整誤差,儘量使得誤差較小。
  • RNN:遞歸神經網絡,其模型如下:
    在這裏插入圖片描述
    我們在處理文字等問題的時候,我們的輸入會把上一個時間輸出的數據作爲下一個時間的輸入數據進行處理。
    例如:我們有一段話,我們將其分詞,得到t個數據,我們分別將每一個詞傳入到x0,x1…xt裏面,當x0傳入後,會得到一個結果h0,同時我們會將處理後的數據傳入到下個時間,到下個時間的時候,我們會再傳入一個數據x1,同時還有上一個時間處理後的數據,將這兩個數據進行整合計算,然後再向下傳輸,一直到結束。
    rnn本質來說還是一個bp迴路,不過他只是比bp網絡多一個環節,即它可以反饋上一時間點處理後的數據。
  • LSTM(長短期記憶網絡)
    在這裏插入圖片描述
    上圖有三個門:輸入門 忘記門 輸出門
    1.輸入門:通過input * g 來判斷是否輸入,如果不輸入就爲0,輸入就是0,以此判斷信號是否輸入
    2.忘記門:這個信號是否需要衰減多少,可能爲50%,衰減是根據信號來判斷。
    3.輸入門:通過判斷是否輸出,或者輸出多少,例如輸出50%。

所以通過上述神經網絡和RNN模型以及LSTM我們可以通讀此論文。
按照上述要求:
上下文對齊選通機制:

  • 1.基於單詞重疊
    單詞重疊即相同單詞,獲取相同單詞的上下文信息即可。
  • 2.基於語義相似度
    基於語義,即爲相似詞,例如:爸爸也叫老爸,通過詞或字的相似性來進行選擇上下文。(基於Stanford Core NLP工具2的單語單詞aligner1算法(語義算法))

上下文對齊門控機制

  • 1.相關性度量
  • 2.上下文吸收
    1.測量對齊的單詞所在的句子(HX)的表示與當前單詞對應的隱藏狀態(hy j)之間的相關性,這是確定多少上下文信息的良好標準另一個句子中對齊的單詞中要吸收的部分。(即爲激勵函數求概率) 在這裏插入圖片描述
    2.由RNN獲得的原始隱藏狀態(hy j)將根據所測量的相關性直接吸收其他句子中對齊單詞的上下文信息(hx i)。結果,將生成新的隱藏狀態,其公式爲:hyj = g hx i +(1- g)hy j(3)其中,g是通過公式(2)獲得的內插相關參數,表示逐元素相乘,並且hyj是新生成的隱藏狀態

在這裏插入圖片描述
綜上,ca-rnn即爲其流程

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章