AWD-LSTM爲什麼這麼棒？

摘要： AWD-LSTM爲什麼這麼棒，看完你就明白啦！

AWD-LSTM是目前最優秀的語言模型之一。在衆多的頂會論文中，對字級模型的研究都採用了AWD-LSTMs，並且它在字符級模型中的表現也同樣出色。

本文回顧了論文——Regularizing and Optimizing LSTM Language Models ，在介紹AWD-LSTM模型的同時並解釋其中所涉及的各項策略。該論文提出了一系列基於詞的語言模型的正則化和優化策略。這些策略不僅行之有效，而且能夠在不改變現有LSTM模型的基礎上使用。

AWD-LSTM即ASGD Weight-Dropped LSTM。它使用了DropConnect及平均隨機梯度下降的方法，除此之外還有包含一些其它的正則化策略。我們將在後文詳細講解這些策略。本文將着重於介紹它們在語言模型中的成功應用。

實驗代碼獲取：awd-lstm-lm GitHub repository

LSTM中的數學公式：

it = σ(Wixt + Uiht-1)

ft = σ(Wfxt + Ufht-1)

ot = σ(Woxt + Uoht-1)

c’t = tanh(Wcxt + Ucht-1)

ct = it ⊙ c’t + ft ⊙ c’t-1

ht = ot ⊙ tanh(ct)

其中, Wi, Wf, Wo, Wc, Ui, Uf, Uo, Uc都是權重矩陣，xt表示輸入向量，ht表示隱藏單元向量，ct表示單元狀態向量， ⊙表示element-wise乘法。

接下來我們將逐一介紹作者提出的策略：

權重下降的LSTM

RNN的循環連接容易導致過擬合問題，如何解決這一問題也成了一個較爲熱門的研究領域。Dropouts的引入在前饋神經網絡和卷積網絡中取得了巨大的成功。但將Dropouts引入到RNN中卻反響甚微，這是由於Dropouts的加入破壞了RNN長期依賴的能力。

研究學者們就此提出了許多解決方案，但是這些方法要麼作用於隱藏狀態向量ht-1，要麼是對單元狀態向量ct進行更新。上述操作能夠解決高度優化的“黑盒”RNN，例如NVIDIA’s cuDNN LSTM中的過擬合問題。

但僅如此是不夠的，爲了更好的解決這個問題，研究學者們引入了DropConnect。DropConnect是在神經網絡中對全連接層進行規範化處理。Dropout是指在模型訓練時隨機的將隱層節點的權重變成0，暫時認爲這些節點不是網絡結構的一部分，但是會把它們的權重保留下來。與Dropout不同的是DropConnect在訓練神經網絡模型過程中，並不隨機的將隱層節點的輸出變成0，而是將節點中的每個與其相連的輸入權值以1-p的概率變成0。

DropConnect作用在hidden-to-hidden權重矩陣(Ui、Uf、Uo、Uc)上。在前向和後向遍歷之前，只執行一次dropout操作，這對訓練速度的影響較小，可以用於任何標準優化的“黑盒”RNN中。通過對hidden-to-hidden權重矩陣進行dropout操作，可以避免LSTM循環連接中的過度擬合問題。

你可以在 awd-lstm-lm 中找到weight_drop.py 模塊用於實現。

作者表示，儘管DropConnect是通過作用在hidden-to-hidden權重矩陣以防止過擬合問題，但它也可以作用於LSTM的非循環權重。

使用非單調條件來確定平均觸發器

研究發現，對於特定的語言建模任務，傳統的不帶動量的SGD算法優於帶動量的SGD、Adam、Adagrad及RMSProp等算法。因此，作者基於傳統的SGD算法提出了ASGD（Average SGD）算法。

Average SGD

ASGD算法採用了與SGD算法相同的梯度更新步驟，不同的是，ASGD沒有返回當前迭代中計算出的權值，而是考慮的這一步和前一次迭代的平均值。

傳統的SGD梯度更新：

AGSD梯度更新：

其中，k是在加權平均開始之前運行的最小迭代次數。在k次迭代開始之前，ASGD與傳統的SGD類似。t是當前完成的迭代次數，sum(w_prevs)是迭代k到t的權重之和，lr_t是迭代次數t的學習效率，由學習率調度器決定。

你可以在這裏找到AGSD的PyTorch實現。

但作者也強調，該方法有如下兩個缺點：

• 學習率調度器的調優方案不明確

• 如何選取合適的迭代次數k。值太小會對方法的有效性產生負面影響，值太大可能需要額外的迭代才能收斂。

基於此，作者在論文中提出了使用非單調條件來確定平均觸發器，即NT-ASGD，其中：

• 當驗證度量不能改善多個循環時，就會觸發平均值。這是由非單調區間的超參數n保證的。因此，每當驗證度量沒有在n個週期內得到改進時，就會使用到ASGD算法。通過實驗發現，當n=5的時候效果最好。

• 整個實驗中使用一個恆定的學習速率，不需要進一步的調整。

正則化方法

除了上述提及的兩種方法外，作者還使用了一些其它的正則化方法防止過擬合問題及提高數據效率。

長度可變的反向傳播序列

作者指出，使用固定長度的基於時間的反向傳播算法（BPTT）效率較低。試想，在一個時間窗口大小固定爲10的BPTT算法中，有100個元素要進行反向傳播操作。在這種情況下，任何可以被10整除的元素都不會有可以反向支撐的元素。這導致了1/10的數據無法以循環的方式進行自我改進，8/10的數據只能使用到部分的BPTT窗口。

爲了解決這個問題，作者提出了使用可變長度的反向傳播序列。首先選取長度爲bptt的序列，概率爲p以及長度爲bptt/2的序列，概率爲1-p。在PyTorch中，作者將p設爲0.95。

其中，base_bptt用於獲取seq_len，即序列長度，在N(base_bptt, s)中，s表示標準差，N表示服從正態分佈。代碼如下：

學習率會根據seq_length進行調整。由於當學習速率固定時，會更傾向於對段序列而非長序列進行採樣，所以需要進行縮放。

Variational Dropout

在標準的Dropout中，每次調用dropout連接時都會採樣到一個新的dropout mask。而在Variational Dropout中，dropout mask在第一次調用時只採樣一次，然後locked dropout mask將重複用於前向和後向傳播中的所有連接。

雖然使用了DropConnect而非Variational Dropout以規範RNN中hidden-to-hidden的轉換，但是對於其它的dropout操作均使用的Variational Dropout，特別是在特定的前向和後向傳播中，對LSTM的所有輸入和輸出使用相同的dropout mask。

點擊查看官方awd-lstm-lm GitHub存儲庫的Variational dropout實現。詳情請參閱原文。

Embedding Dropout

論文中所提到的Embedding Dropout首次出現在——《A Theoretically Grounded Application of Dropout in Recurrent Neural Networks》一文中。該方法是指將dropout作用於嵌入矩陣中，且貫穿整個前向和反向傳播過程。在該過程中出現的所有特定單詞均會消失。

Weight Tying（權重綁定）

權重綁定共享嵌入層和softmax層之間的權重，能夠減少模型中大量的參數。

Reduction in Embedding Size

對於語言模型來說，想要減少總參數的數量，最簡單的方法是降低詞向量的維數。即使這樣無法幫助緩解過擬合問題，但它能夠減少嵌入層的維度。對LSTM的第一層和最後一層進行修改，可以使得輸入和輸出的尺寸等於減小後的嵌入尺寸。

Activation Regularization（激活正則化）

L2正則化是對權重施加範數約束以減少過擬合問題，它同樣可以用於單個單元的激活，即激活正則化。激活正則化可作爲一種調解網絡的方法。

Temporal Activation Regularization（時域激活正則化）

同時，L2正則化能對RNN在不同時間步驟上的輸出差值進行範數約束。它通過在隱藏層產生較大變化對模型進行懲罰。

其中，alpha和beta是縮放係數，AR和TAR損失函數僅對RNN最後一層的輸出起作用。

模型分析

作者就上述模型在不同的數據集中進行了實驗，爲了對分分析，每次去掉一種策略。

圖中的每一行表示去掉特定策略的困惑度（perplexity）分值，從該圖中我們能夠直觀的看出各策略對結果的影響。

實驗細節

數據——來自Penn Tree-bank（PTB）數據集和WikiText-2（WT2）數據集。

網絡體系結構

——所有的實驗均使用的是3層LSTM模型。

批尺寸——WT2數據集的批尺寸爲80，PTB數據集的批尺寸爲40。根據以往經驗來看，較大批尺寸（40-80）的性能優於較小批尺寸（10-20）。

其它超參數的選擇請參考原文。

總結

該論文很好的總結了現有的正則化及優化策略在語言模型中的應用，對於NLP初學者甚至研究者都大有裨益。論文中強調，雖然這些策略在語言建模中獲得了成功，但它們同樣適用於其他序列學習任務。

本文作者：【方向】

閱讀原文

本文爲雲棲社區原創內容，未經允許不得轉載。

AWD-LSTM爲什麼這麼棒？

大數據基礎工程技術團隊4篇論文入選ICLR，ICDE，WWW

PolarDB-X V2.4 列存引擎開源正式發佈

Serverless Devs 重大更新，基於 Serverless 架構的 CI/CD 框架：Serverless-cd

5個編寫技巧，有效提高單元測試實踐

使用EasyCV Mask2Former輕鬆實現圖像分割

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結