abstract
This is the first paper that apply dropout to RNNs.
introduction
uncontrained offline handwriting 就是識別圖片文本的問題。
解決這個問題的 pipeline (pre-processing module + recognizer):
- 通常有一個 pre-processing module 來提取 image snippets. 每個 image snippets 都包含 one single word or line,然後這些 image snippets 會喂進 recognizer。
- recognizer 的目的就是一次識別 one single line of text。recognizer 應該能識別序列中字母的相關性。
recognizer早期的工作通常使用基於HMM的方法。這種方法的侷限性是不能處理 long-term dependencies in sequences,而且HMMs在每一步只能選擇一個hidden state。
RNN 是 sequence modeling 的有效方法。那麼爲什麼RNN可以sequence modeling呢?原因就是RNN有recurrent connections,這種結構使它可以用activation來表達過去的輸入,因此可以用複雜的結構來model long sequences。但是梯度爆炸和梯度消失還是RNN難以應用的原因。 然後,LSTM就被提出了,RNNs enhanced by LSTM cells 是當時handwriting recognition。
這篇文章是第一篇將dropout應用於RNN的方法。在非RNN的網絡中,dropout通常只應用在全連接層。在這篇文章中,將dropout應用於RNN中的某些層(不一定是全連接層)。將dropout應用於RNN的核心研究點就是如何不讓dropout影響RNN sequence modeling的能力。這篇文章的觀點就是不讓dropout影響recurrent connections.
dropout for recurrent neural network
首先來講一下dropout最原始的思想;
dropout就是在訓練過程中隨機的移除一些hidden units, 在測試過程中保留所有的units。