Deep Memory Network 深度記憶網絡

RNN解決長期依賴的能力隨着文本長度的增加越來越差,attention機制是解決這種問題的一種思路,今天我們再來看另外一種思路,深度記憶網絡。Deep Memory Network在QA和Aspect based Sentiment等NLP領域都有過成功的實踐,但其提出者本身是以通用模型的形式提出的。

Introduce of Memory Network

Memory Network是一種新的可學習模型,它使用一個整合了長期記憶的一個組件(稱爲Memory)作爲推斷組件(inference components)來進行推理。長期記憶Memory可以被讀和寫,以實現預測的最終目的。原論文作者認爲RNN的記憶問題(無法完成簡單的複製任務,即將輸入原樣輸出)也可以被Memory Network解決。它核心思想來自機器學習文獻中成功應用的使用外置的可讀寫的記憶模塊來進行推斷。

Memory Networks

一個記憶網絡是由一個記憶mm(一個以mim_i作爲索引的數組對象)和4個組件I,G,O,RI,G,O,R組成。其中:

  • I:(input feature map) - 將輸入轉化爲中間特徵表示。
  • G:(Generalization) - 給定新輸入的條件下更新舊記憶。原作者稱之爲泛化,因爲網絡在該階段有機會將記憶壓縮和泛化以供後面使用。
  • O:(Output feature map) - 給定新輸入和當前記憶狀態,產生一個新的輸出(在特徵表示空間上)。
  • R:(Response) - 將output(即O)轉化到目標形式(例:一個文本的回覆或者一個動作)
Memory Networks的處理過程

給定一個輸入x(例:字符、詞或者句子(視處理力度而定),圖像或者聲音信號),模型處理過程如下:

  1. 將x轉化爲中間特徵表示I(x)I(x)
  2. 使用新輸入更新記憶mim_i: mi=G(mi,I(x),m),im_i=G(m_i, I(x), m), \forall i
  3. 使用新輸入的中間特徵表示和記憶計算輸出特徵oo: o=O(I(x),m)o=O(I(x), m)
  4. 最後,解碼輸出特徵到最終回覆: r=R(o)r=R(o)

這個過程在訓練和測試時都適用,兩者之間的區別在於:測試時記憶也會被存儲,但模型參數I,G,O,RI,G,O,R將不會再更新。I,G,O,RI,G,O,R可以使用現有任何機器學習的方法來實現(SVM, 決策樹)。

組件II: II可以使用標準的預處理步驟來實現,比如輸入文本的語法分析、指代消解、實體識別等。它同樣也可以將輸入編碼到一箇中間的特徵表示(將文本轉化爲稀疏或者稠密的特徵向量)。

組件GG: 最簡單的G的形式可以是將I(x)I(x)儲存起來的槽位(slot):
mH(x)=I(x)m_{H(x)}=I(x)
其中H(x)H(x)是選擇槽位的一個函數。即,GG只更新m的索引H(x)H(x),其他索引下的記憶部分將保持不變。更復雜的GG的實現還可以允許GG去根據當前輸入x得到的新證據去更新先前存儲的記憶。如果輸入是字符級別或者詞級別的你也可以將其進行分組。

如果記憶非常龐大(假設要記憶整個Freebase或者Wikipedia),你可能不得不把記憶使用H(x)H(x)來組織起來。

如果記憶已經被填滿。你也可以使用HH來實現一種遺忘機制。

OORR組件OO組件被特別應用於讀取記憶和執行推斷,RR組件則根據OO的輸出產生最終回覆。例:在QA中,使用OO查找相關的記憶,然後RR生成文字來組成答案。RR可以是RNN,視OO的輸出而定。這種設計基於的假設是,如果沒有限定在這種記憶上,RNN會表現得相當差(事實上很多場景下確實如此)。

原論文給了一個QA的例子,但由於這個模型並沒有廣泛使用這裏就不介紹了。我們轉而介紹一種常用的端到端的記憶網絡實現。

End-To-End Memory Network

端到端的記憶網絡本質上也是一種RNN架構,但與RNN不同之處在於,在遞歸過程中會多次讀取大型外部存儲的記憶來輸出一個符號。下面介紹的Memory Network可以有很多層,也易於反向傳播,需要對網絡的每一層進行監督訓練。它以端到端的形式被應用於QA和Aspect Based Sentiment。

模型將一系列離散的輸入xi,...,xnx_i,...,x_n存儲在記憶中,並接受一個查詢qq,輸出回答aa。模型會將所有的xx寫爲記憶存儲在一個固定大小的緩存中,然後尋求一個xxqq的連續表示。該連續表示會被多跳處理以輸出a。這使得錯誤信號能夠在多級記憶中反向傳播到輸入。

Single Layer

整個模型是很多層堆起來的,我們先介紹單個層。

輸入記憶表示(Input memory representation):假定我們被給定輸入集x1,...,xix_1,...,x_i存儲在記憶中。整個輸入集xi{x_i}都會經由每個xix_i所處的連續空間的嵌入(embedding)被轉化爲維度爲dd的記憶向量mi{m_i},最簡單的實現方法可以使用一個嵌入矩陣A(d×V)A(d\times V),查詢qq也會被嵌入,可以用維度與AA相同的嵌入矩陣BB來得到一箇中間狀態uu,在嵌入空間上,我們使用內積計算uu和記憶mim_i的匹配程度,然後再softmax:
pi=Softmax(uTmi) (1)p_i=Softmax(u^Tm_i) \ (1)

輸出記憶表示(Output memory representation):每一個xix_i都有一個相關的輸出向量cic_i(最簡單的情況下使用另外的嵌入矩陣CC)。自記憶oo產生的回覆向量通過使用自輸入產生的概率向量pip_i與轉化後的cic_i加權求和得到:
o=ipicio=\sum_ip_ic_i

產生最終預測:在單層的情況下,輸出向量oo的和輸入嵌入uu求和再乘上一個最終的權重矩陣WW,然後經過softmax產生預測標籤:
a^=Softmax(W(o+u))\hat{a}=Softmax(W(o+u))
在這裏插入圖片描述

Multi Layers

模型可以擴展到處理K跳操作。記憶層是以如下方式進行堆積的:

  • 下一層的input由上一層的輸出oko^k和輸入uku^k求和得來:
    uk+1=uk+oku^{k+1}=u^k+o^k
  • 每一層都有自己的嵌入矩陣Ak,CkA^k, C^k,本用於對輸入xi{x_i}進行嵌入。但是,這些矩陣被限制在易於訓練並且能減少參數的數量的程度。
  • 在網絡頂層,WW對應的輸入同樣組合了輸入和記憶層頂層的輸出:
    a^=Softmax(WuK+1)=Softmax(W(oK+uK))\hat{a}=Softmax(Wu^{K+1})=Softmax(W(o^K+u^K))
    在這裏插入圖片描述

原論文探索了兩種類型的權重捆綁:

  1. 鄰接(Adjacent):一個層輸出的嵌入是下一層的輸入,即:Ak+1=CKA^{k+1}=C^K,作者同樣也限制: (a)回答預測矩陣要和最終的輸出嵌入相同,即:WT=CK{W^T=C^K}。(b)問題嵌入和第一層的輸入嵌入相同,即B=A1B=A^1
  2. 層級別(Layer-wise,類RNN):層與層之間共享輸入個輸出嵌入,即:
    A1=A2=...=AKA^1=A^2=...=A^KC1=C2=...=CKC^1=C^2=...=C^K。作者發現在層間加上一個線性的映射函數HH非常有用,即uk+1=Huk+oku^{k+1}=Hu^k+o^k。H同樣也是被學習的參數和其他參數一起更新。

在使用層級別權重捆綁的情況下,Deep Memory Network某種程度上退化到了RNN,這一點讀者可以仔細體會一下。

參考文獻

  1. MEMORY NETWORKS (ICLR 2015)
  2. End-To-End Memory Networks (NIPS 2015)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章