Dropout improves recurrent Neural Networks for Handwriting Recognization

abstract

This is the first paper that apply dropout to RNNs.

introduction

uncontrained offline handwriting 就是識別圖片文本的問題。

解決這個問題的 pipeline (pre-processing module + recognizer):

  1. 通常有一個 pre-processing module 來提取 image snippets. 每個 image snippets 都包含 one single word or line,然後這些 image snippets 會喂進 recognizer。
  2. recognizer 的目的就是一次識別 one single line of text。recognizer 應該能識別序列中字母的相關性。

recognizer早期的工作通常使用基於HMM的方法。這種方法的侷限性是不能處理 long-term dependencies in sequences,而且HMMs在每一步只能選擇一個hidden state。

RNN 是 sequence modeling 的有效方法。那麼爲什麼RNN可以sequence modeling呢?原因就是RNN有recurrent connections,這種結構使它可以用activation來表達過去的輸入,因此可以用複雜的結構來model long sequences。但是梯度爆炸和梯度消失還是RNN難以應用的原因。 然後,LSTM就被提出了,RNNs enhanced by LSTM cells 是當時handwriting recognition。

這篇文章是第一篇將dropout應用於RNN的方法。在非RNN的網絡中,dropout通常只應用在全連接層。在這篇文章中,將dropout應用於RNN中的某些層(不一定是全連接層)。將dropout應用於RNN的核心研究點就是如何不讓dropout影響RNN sequence modeling的能力。這篇文章的觀點就是不讓dropout影響recurrent connections.

dropout for recurrent neural network

首先來講一下dropout最原始的思想;
dropout就是在訓練過程中隨機的移除一些hidden units, 在測試過程中保留所有的units。

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章