參考文章:http://blog.csdn.net/u014595019/article/details/52759104
init_scale = 0.1 # 相關參數的初始值爲隨機均勻分佈,範圍是[-init_scale,+init_scale]
learning_rate = 1.0 # 學習速率,在文本循環次數超過max_epoch以後會逐漸降低
max_grad_norm = 5 # 用於控制梯度膨脹,如果梯度向量的L2模超過max_grad_norm,則等比例縮小
num_layers = 2 # lstm層數
num_steps = 20 # 單個數據中,序列的長度。
hidden_size = 200 # 隱藏層中單元數目
max_epoch = 4 # epoch<max_epoch時,lr_decay值=1,epoch>max_epoch時,lr_decay逐漸減小
max_max_epoch = 13 # 指的是整個文本循環次數。
keep_prob = 1.0 # 用於dropout.每批數據輸入時神經網絡中的每個單元會以1-keep_prob的概率不工作,可以防止過擬合
lr_decay = 0.5 # 學習速率衰減
batch_size = 20 # 每批數據的規模,每批有20個。
vocab_size = 10000 # 詞典規模,總共10K個詞