TensorFlow笔记(六)循环神经网络

第六章 循环神经网络

本节主要内容:讲解卷积神经网络,利用基础CNN、LeNet、AlexNet、VGGNet、InceptionNet和ResNet实现图像识别。

本节目标:学习循环神经网络,用 RNN、LSTM、GRU实现连续数据的预测(以股票预测为例)

1 卷积神经网络与循环神经网络简单对比

CNN: 借助卷积核(kernel)提取特征后,送入后续网络(如全连接网络 Dense)进行分类、目标检测等操作。CNN 借助卷积核从空间维度提取信息,卷积核参数

空间共享。

卷积是什么? 卷积就是特征提取器,就是CBAPD

RNN: 借助循环核(cell)提取特征后,送入后续网络(如全连接网络 Dense)进行预测等操作。RNN 借助循环核从时间维度提取信息,循环核参数时间共享。

2 详解 RNN

2.1 RNN 循环核

image-20220424195203824

图2.1 RNN循环核

循环核具有记忆力,通过不同时刻的参数共享,实现了对时间序列的信息提取。每个循环核有多个记忆体,对应图 2.1 中的多个小圆柱。记忆体内存储着每个时刻的状态信息\(h_t\),这里\(h_t = tanh(x_t w_{xh} + h_{t-1}w_{hh} + bh)\)。其中,\(w_{xh}\)\(w_{hh}\)为权重矩阵,\(bh\)为偏置,\(x_t\)为当前时刻的输入特征,\(h_{t-1}\)为记忆体上一时刻存储的状态信息,tanh 为激活函数。

当前时刻循环核的输出特征$y_t =softmax(h_tw_{hy} + by) \(,其中\)w_{hy}\(为权重矩阵、\)by\(为偏置、softmax 为激活函数,其实就相当于一层全连接层。我们可以设定记忆体的个数从而改变记忆容量,当记忆体个数被指定、输入\)x_t\(输出\)y_t\(维度被指定,周围这些待训练参数的维度也就被限定了。在前向传播时,记忆体内存储的状态信息\)h_t\(在每个时刻都被刷新,而三个参数矩阵\)w_{xh}、w_{hh}、w_{hy}$ 和两个偏置项\(bh、by\)自始至终都是固定不变的。在反向传播时,三个参数矩阵和两个偏置项由梯度下降法更新。

2.2 循环核按时间步展开

将循环核按时间步展开,就是把循环核按照时间轴方向展开,可以得到如图2.2的形式。每个时刻记忆体状态信息\(h_t\)被刷新,记忆体周围的参数矩阵和两个偏置项是固定不变的,我们训练优化的就是这些参数矩阵。训练完成后,使用效果最好的参数矩阵执行前向传播,然后输出预测结果。其实这和我们人类的预测是一致的:我们脑中的记忆体每个时刻都根据当前的输入而更新;当前的预测推理是根据我们以往的知识积累用固化下来的“参数矩阵”进行的推理判断。

可以看出,循环神经网络就是借助循环核实现时间特征提取后把提取到的信息送入全连接网络,从而实现连续数据的预测。

image-20220424200532560

图2.2 RNN循环核按时间步展开

2.3 循环计算层:向输出方向生长

在RNN中,每个循环核构成一层循环计算层,循环计算层的层数是向输出方向增长的。如图2.3所示,左图的网络有一个循环核,构成了一层循环计算层;中图的网络有两个循环核,构成了两层循环计算层;右图的网络有三个循环核,构成了三层循环计算层。其中,三个网络中每个循环核中记忆体的个数可以根据我们的需求任意指定。

image-20220424200749399

图2.3 循环计算层

2.4 RNN训练

得到RNN的前向传播结果之后,和其他神经网络类似,我们会定义损失函数,使用反向传播梯度下降算法训练模型。RNN唯一的区别在于:由于它每个时刻的节点都可能有一个输出,所以RNN的总损失为所有时刻(或部分时刻)上的损失和。

2.5 Tensorflow2描述循环计算层

tf.keras.layers.SimpleRNN(神经元个数,activation=‘激活函数’,return_sequences=是否每个时刻输出ℎ𝑡到下一层)

(1)神经元个数:即循环核中记忆体的个数
(2) return_sequences:在输出序列中,返回最后时间步的输出值\(h_t\)还是返回全部时间步的输出。False返回最后时刻(图2.5),True返回全部时刻(图2.4)。当下一层依然是RNN层,通常为True,反之如果后面是Dense层,通常为Fasle。

image-20220424201216404

图2.4 return_sequences = True

image-20220424201246277

图2.5 return_sequences = False

(3)输入维度:三维张量(输入样本数, 循环核时间展开步数, 每个时间步输入特征个数)。

image-20220424201435118

图2.6 RNN层输入维度

如图2.6所示,左图一共要送入RNN层两组数据,每组数据经过一个时间步就会得到输出结果,每个时间步送入三个数值,则输入循环层的数据维度就是[2, 1, 3];右图输入只有一组数据,分四个时间步送入循环层,每个时间步送入两个数值 ,则输入循环层的数据维度就是 [1,4, 2]。

(4)输出维度:当return_sequenc=True,三维张量(输入样本数, 循环核时间展开步数,本层的神经元个数);当return_sequenc=False,二维张量(输入样本数,本层的神经元个数)

(5) activation:‘激活函数’(不写默认使用tanh)

例:SimpleRNN(3, return_sequences=True),定义了一个具有三个记忆体的循环核,这个循环核会在每个时间步输出\(h_t\)

3 循环计算过程

3.1 1pre1

RNN最典型的应用就是利用历史数据预测下一时刻将发生什么,即根据以前见过的历史规律做预测。举一个简单的字母预测例子体会一下循环网络的计算过程:输入一个字母预测下一个字母---输入a预测出b、输入b预测出c、输入c预测出d、输入d预测出e、输入e预测出a。计算机不认识字母,只能处理数字。所以需要我们对字母进行编码。这里假设使用独热编码(实际中可使用其他编码方式),编码结果如图2.7所示。

image-20220424202432373

图2.7 字母独热编码

假设使用一层RNN网络,记忆体的个数选取3,则字母预测的网络如图1.2.8所示。假设输入字母b,即输入\(x_t\)为[0,1,0,0,0],这时上一时刻的记忆体状态信息\(h_{t-1}\)为0。由上文理论知识不难得到:

\(h_t = tanh(x_t w_{xh} + h_{t-1}w_{hh} + bh)\)=tanh([−2.3 0.8 1.1 ]+ 0 + [ 0.5 0.3 −0.2])= tanh[−1.8 1.1 0.9 ] = [−0.9 0.8 0.7] ,这个过程可以理解为脑中的记忆因为当前输入的事物而更新了。

输出\(y_t\)是把提取到的时间信息通过全连接进行识别预测的过程,是整个网络的输出层。不难知道,\(y_t =softmax(h_tw_{hy} + by)\)= softmax([−0.7 −0.6 2.9 0.7 −0.8] + [ 0.0 0.1 0.4 −0.7 0.1])= softmax([−0.7 −0.5 3.3 0.0 −0.7])=[0.02 0.02 𝟎𝟎.𝟗𝟗𝟗𝟗 0.03 0.02 ]。可见模型认为有91%的可能性输出字母c ,所以循环网络输出了预测结果 c。

image-20220424203238281

独热编码实践字母预测

按照六步法八股套路进行编码:

import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Dense, SimpleRNN
import matplotlib.pyplot as plt
import os

input_word = "abcde"
w_to_id = {'a': 0, 'b': 1, 'c': 2, 'd': 3, 'e': 4}  # 单词映射到数值id的词典
id_to_onehot = {0: [1., 0., 0., 0., 0.], 1: [0., 1., 0., 0., 0.], 2: [0., 0., 1., 0., 0.], 3: [0., 0., 0., 1., 0.],4: [0., 0., 0., 0., 1.]}  # id编码为one-hot

x_train = [id_to_onehot[w_to_id['a']], id_to_onehot[w_to_id['b']], id_to_onehot[w_to_id['c']],
           id_to_onehot[w_to_id['d']], id_to_onehot[w_to_id['e']]]
y_train = [w_to_id['b'], w_to_id['c'], w_to_id['d'], w_to_id['e'], w_to_id['a']]

np.random.seed(7)
np.random.shuffle(x_train)
np.random.seed(7)
np.random.shuffle(y_train)
tf.random.set_seed(7)

# 使x_train符合SimpleRNN输入要求:[送入样本数, 循环核时间展开步数, 每个时间步输入特征个数]。
# 此处整个数据集送入,送入样本数为len(x_train);输入1个字母出结果,循环核时间展开步数为1; 表示为独热码有5个输入特征,每个时间步输入特征个数为5
x_train = np.reshape(x_train, (len(x_train), 1, 5))
y_train = np.array(y_train)

import相关模块->生成训练用的输入特征x_train和标签y_train(输入特征a对应的标签是b、输入特征b对应的标签是c、依次类推),打乱顺序后变形成RNN输入需要的维度。

model = tf.keras.Sequential([
    SimpleRNN(3),
    Dense(5, activation='softmax')
])

model.compile(optimizer=tf.keras.optimizers.Adam(0.01),
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
              metrics=['sparse_categorical_accuracy'])

checkpoint_save_path = "./checkpoint/rnn_onehot_1pre1.ckpt"

if os.path.exists(checkpoint_save_path + '.index'):
    print('-------------load the model-----------------')
    model.load_weights(checkpoint_save_path)

cp_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_save_path,
                                                 save_weights_only=True,
                                                 save_best_only=True,
                                                 monitor='loss') 
# 由于fit没有给出测试集,不计算测试集准确率,根据loss,保存最优模型

history = model.fit(x_train, y_train, batch_size=32, epochs=100, callbacks=[cp_callback])

model.summary()

构建模型:一个具有3个记忆体的循环层+一层全连接->Compile->fit->summary。

file = open('./weights.txt', 'w')  # 参数提取
for v in model.trainable_variables:
    file.write(str(v.name) + '\n')
    file.write(str(v.shape) + '\n')
    file.write(str(v.numpy()) + '\n')
file.close()

###############################################    show   ###############################################

# 显示训练集和验证集的acc和loss曲线
acc = history.history['sparse_categorical_accuracy']
loss = history.history['loss']

plt.subplot(1, 2, 1)
plt.plot(acc, label='Training Accuracy')
plt.title('Training Accuracy')
plt.legend()

plt.subplot(1, 2, 2)
plt.plot(loss, label='Training Loss')
plt.title('Training Loss')
plt.legend()
plt.show()

提取参数和 acc、loss可视化。

############### predict #############

preNum = int(input("input the number of test alphabet:"))
for i in range(preNum):
    alphabet1 = input("input test alphabet:")
    alphabet = [id_to_onehot[w_to_id[alphabet1]]]
    # 使alphabet符合SimpleRNN输入要求:[送入样本数, 循环核时间展开步数, 每个时间步输入特征个数]。此处验证效果送入了1个样本,送入样本数为1;输入1个字母出结果,所以循环核时间展开步数为1; 表示为独热码有5个输入特征,每个时间步输入特征个数为5
    alphabet = np.reshape(alphabet, (1, 1, 5))
    result = model.predict([alphabet])
    pred = tf.argmax(result, axis=1)
    pred = int(pred)
    tf.print(alphabet1 + '->' + input_word[pred])

所示为展示预测效果的应用程序,将其写到了这段代码的最后:首先输入要执行几次预测任务;随后等待输入一个字母,将这个字母转换为独热码形式后调整为RNN层希望的形状;然后通过predict得到预测结果,选出预测结果中最大的一个即为预测结果。运行结果如图2.13所示。

image-20220424205929510

Embedding编码实践字母预测

为什么使用Embedding?

  • 独热码:数据量大、过于稀疏,映射之间是独立的,没有表现出关联性。
  • Embedding:是一种单词编码方法,用低维向量实现了编码。这种编码通过神经网络训练优化,能表达出单词间的相关性。

Tensorflow2中的词向量空间编码层:

tf.keras.layers.Embedding(词汇表大小,编码维度)
  • 词汇表大小:编码一共要表示多少个单词;
  • 编码维度:用几个数字表达一个单词;

输入维度:二维张量[送入样本数,循环核时间展开步数]
输出维度:三维张量[送入样本数,循环核时间展开步数,编码维度]

例 :tf.keras.layers.Embedding(100, 3)。对数字1-100进行编码,词汇表大小就是100 ;每个自然数用三个数字表示,编码维度就是3; 所以Embedding层的参数是100和3。比如数字[4] embedding为 [0.25, 0.1, 0.11]。

Embedding实现1pre1

如图2.14所示,浅蓝色框框住的区域为与独热编码不同的地方。不同是因为需要把输入特征变Embedding层期待的形状:第一个维度是送入样本数、第二个维度是循环核时间展开步数。

image-20220424210456797

图2.14 p27_rnn_embedding_1pre1.py(1)

如图2.15所示,在模型部分相比于独热编码形式多了一个Embedding层对输入数据进行编码,这一层会生成一个五行两列的可训练参数矩阵,实现编码可训练。

image-20220424210648550

图2.15 p27_rnn_embedding_1pre1.py(2)

参数提取和acc/loss可视化和p15_rnn_onehot_1pre1.py代码完全一样。在结果预测时,如图2.16所示,只需要将读到的输入字母直接查找表示它的ID值,然后调整为Embedding层希望的形状输入网络进行预测即可。

image-20220424210730033

3.2 4pre1

image-20220424211229869

1pre1是输入一个字母预测下一个字母的例子,4pre1是连续输入多(这里取4)个字母预测下一个字母的例子。这里仍然使用三个记忆体,初始时刻记忆体内的记忆是0。接下来用一套训练好的参数矩阵感受循环计算的前向传播过程,在这个过程中的每个时刻参数矩阵是固定的,记忆体会在每个时刻被更新。下面以输入bcde预测a为例:

在第一个时刻,b的独热码[0,1,0,0,0]输入,记忆体根据更新公式\(h_t = tanh(x_t w_{xh} + h_{t-1}w_{hh} + bh)\)=tanh([−1.5 0.2 0.3] + [0.0 0.0 0.0] + [0.2 0.0 −0.1])= tanh([−1.3 0.2 0.2 ]) = [−0.9 0.2 0.2]刷新。在

第二个时刻,c的独热码[0,0,1,0,0]输入,记忆体根据更新公式\(h_t = tanh(x_t w_{xh} + h_{t-1}w_{hh} + bh)\)=tanh([−0.3 1.7 0.7] + [1.1 1.1 0.5] + [0.2 0.0 −0.1])= tanh([ 1.0 2.8 1.1]) = [0.8 1.0 0.8]刷新。在

第三个时刻,d的独热码[0,0,0,1,0]输入,记忆体根据更新公式\(h_t = tanh(x_t w_{xh} + h_{t-1}w_{hh} + bh)\)=tanh([-0.1 0.1 -0.1] + [0.6 0.4 -2.2] + [0.2 0.0 -0.1])= tanh([ 0.7 0.5 -2.4 ] = [0.6 0.5 -1.0]刷新。

在第四个时刻,e的独热码[0,0,0,0,1]输入,记忆体根据更新公式\(h_t = tanh(x_t w_{xh} + h_{t-1}w_{hh} + bh)\)=tanh([-1.2 -1.5 0.3] + [-1.3 -0.4 0.8] + [0.2 0.0 -0.1])= tanh([-2.3 -1.9 1.0] = [-1.0 -1.0 0.8]刷新。

输出预测通过全连接完成,由下式求得最终输出:

$y_t =softmax(h_tw_{hy} + by) $= softmax([3.3 1.2 0.9 0.3 −3.1]+ [−0.3 0.2 0.1 0.1 −0.3])= softmax ([3.0 1.4 1.0 0.4 −3.4]) = [𝟎𝟎.𝟕𝟕𝟕 0.14 0.10 0.05 0.00 ]

说明有71%的可能是字母a。观察输出结果,模型不仅成功预测出了下一个字母是a,还可以从神经网络输出的概率发现:因为输入序列的最后一个字母是e,所以模型理应也确实认为下一个字母还是e的可能性最小,可能性最大的是a,其次分别是b、c、d 。

独热编码实践字母预测

image-20220424212209054

图2.18 p21_rnn_onehot_4pre1.py(1)

如图2.18所示,浅蓝色框框住的区域为与p15_rnn_onehot_1pre1.py不同的地方,即x_train、y_train变成了四个字母预测一个字母的形式(输入连续的 abcd对应的标签是e、输入连续的bcde对应的标签是a、依此类推)。

image-20220424212238013

图2.19 p21_rnn_onehot_4pre1.py(2)

如图2.19所示,与p15_rnn_onehot_1pre1.py不同,这里的循环核展开步数为4。

image-20220424212258955

图2.20 p21_rnn_onehot_4pre1.py(3)

参数提取和acc/loss可视化和p15_rnn_onehot_1pre1.py代码完全一样。在结果预测时,如图2.20所示,需要等待连续输入四个字母,然后把这四个字母转换为独热码,然后调整为RNN层希望的形状输入网络进行预测即可。运行结果如图2.21所示。

image-20220424212345604

图2.21 p21_rnn_onehot_4pre1.py预测结果

Embedding编码实践字母预测

这次将词汇量扩充到26个(即字母从a到z)。如图2.22所示,首先建立一个映射表,把字母用数字表示为0到25;然后建立两个空列表,一个用于存放训练用的输入特征x_train,另一个用于存放训练用的标签y_train;接下来用for循环从数字列表中把连续4个数作为输入特征添加到x_train中,第5个数作为标签添加到y_train中,这就构建了训练用的输入特征x_train和标签y_train。
image-20220424212441076

图2.22 p31_rnn_embedding_4pre1.py(1)

如图2.23,把输入特征变成Embedding层期待的形状才能输入网络;在sequntial搭建网络时,相比于one_hot形式增加了一层Embedding层,先对输入数据进行编码,这里的26表示词汇量是26,这里的2表示每个单词用2个数值编码,这一层会生成一个26行2列的可训练参数矩阵,实现编码可训练。随后设定具有十个记忆体的循环层和一个全连接层(输出会是 26个字母之一,所以这里是26);后边进行compile、fit、summary、参数提取和acc/loss可视化和p21_rnn_onehot_4pre1.py代码完全一样。

image-20220424212521329

图2.23 p31_rnn_embedding_4pre1.py(2)

在验证环节,如图2.24所示,同样使用了for循环先输入要执行几次检测,随后等待连续输入四个字母,待输入结束后把它们转换为Embedding层希望的形状,然后输入网络进行预测,选出预测结果最大的一个。运行结果如图2.25所示。

image-20220424212555564

图2.24 p31_rnn_embedding_4pre1.py(3)

image-20220424212608735

图2.25 p31_rnn_embedding_4pre1.py预测结果

4 RNN实现股票预测

(1) 数据源
SH600519.csv是用tushare模块下载的SH600519贵州茅台的日k线数据,本次例子中只用它的C列数据(如图1.2.26所示):用连续60天的开盘价,预测第61天的开盘价。这个excel表格是)直接下载的真实数据,可以在这里写出我们需要的六位股票代码,下载需要的股票历史数据。

import tushare as ts
import matplotlib.pyplot as plt

df1 = ts.get_k_data('600519', ktype='D', start='2010-04-26', end='2022-04-26')

datapath1 = "./SH600519.csv"
df1.to_csv(datapath1)

image-20220426191937217

(1) 代码实现

import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Dropout, Dense, SimpleRNN
import matplotlib.pyplot as plt
import os
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error
import math

maotai = pd.read_csv('./SH600519.csv')  # 读取股票文件

training_set = maotai.iloc[0:2426 - 300, 2:3].values  # 前(2426-300=2126)天的开盘价作为训练集,表格从0开始计数,2:3 是提取[2:3)列,前闭后开,故提取出C列开盘价
test_set = maotai.iloc[2426 - 300:, 2:3].values  # 后300天的开盘价作为测试集

# 归一化
sc = MinMaxScaler(feature_range=(0, 1))  # 定义归一化:归一化到(0,1)之间
training_set_scaled = sc.fit_transform(training_set)  # 求得训练集的最大值,最小值这些训练集固有的属性,并在训练集上进行归一化
test_set = sc.transform(test_set)  # 利用训练集的属性对测试集进行归一化

x_train = []
y_train = []

x_test = []
y_test = []

按照六步法:

import相关模块->读取贵州茅台日k线数据到变量maotai,把变量maotai中前2126天数据中的开盘价作为训练数据,把变量maotai中后300天数据中的开盘价作为测试数据;

然后对开盘价进行归一化,使送入神经网络的数据分布在0到1之间;

接下来建立空列表分别用于接收训练集输入特征、训练集标签、测试集输入特征、测试集标签;

# 测试集:csv表格中前2426-300=2126天数据
# 利用for循环,遍历整个训练集,提取训练集中连续60天的开盘价作为输入特征x_train,第61天的数据作为标签,for循环共构建2426-300-60=2066组数据。
for i in range(60, len(training_set_scaled)):
    x_train.append(training_set_scaled[i - 60:i, 0])
    y_train.append(training_set_scaled[i, 0])
# 对训练集进行打乱
np.random.seed(7)
np.random.shuffle(x_train)
np.random.seed(7)
np.random.shuffle(y_train)
tf.random.set_seed(7)
# 将训练集由list格式变为array格式
x_train, y_train = np.array(x_train), np.array(y_train)

# 使x_train符合RNN输入要求:[送入样本数, 循环核时间展开步数, 每个时间步输入特征个数]。
# 此处整个数据集送入,送入样本数为x_train.shape[0]即2066组数据;输入60个开盘价,预测出第61天的开盘价,循环核时间展开步数为60; 每个时间步送入的特征是某一天的开盘价,只有1个数据,故每个时间步输入特征个数为1
x_train = np.reshape(x_train, (x_train.shape[0], 60, 1))
# 测试集:csv表格中后300天数据
# 利用for循环,遍历整个测试集,提取测试集中连续60天的开盘价作为输入特征x_train,第61天的数据作为标签,for循环共构建300-60=240组数据。
for i in range(60, len(test_set)):
    x_test.append(test_set[i - 60:i, 0])
    y_test.append(test_set[i, 0])
# 测试集变array并reshape为符合RNN输入要求:[送入样本数, 循环核时间展开步数, 每个时间步输入特征个数]
x_test, y_test = np.array(x_test), np.array(y_test)
x_test = np.reshape(x_test, (x_test.shape[0], 60, 1))

继续构造数据。用for循环遍历整个训练数据,每连续60天数据作为输入特征x_train,第61天数据作为对应的标签y_train ,一共生成2066组训练数据,然后打乱训练数据的顺序并转变为array格式继而转变为RNN输入要求的维度;同理,利用for循环遍历整个测试数据,一共生成240组测试数据,测试集不需要打乱顺序,但需转变为array格式继而转变为RNN输入要求的维度。

model = tf.keras.Sequential([
    SimpleRNN(80, return_sequences=True),
    Dropout(0.2),
    SimpleRNN(100),
    Dropout(0.2),
    Dense(1)
])

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
              loss='mean_squared_error')  # 损失函数用均方误差
# 该应用只观测loss数值,不观测准确率,所以删去metrics选项,一会在每个epoch迭代显示时只显示loss值

checkpoint_save_path = "./checkpoint/rnn_stock.ckpt"

if os.path.exists(checkpoint_save_path + '.index'):
    print('-------------load the model-----------------')
    model.load_weights(checkpoint_save_path)

cp_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_save_path,
                                                 save_weights_only=True,
                                                 save_best_only=True,
                                                 monitor='val_loss')

history = model.fit(x_train, y_train, batch_size=64, epochs=50, validation_data=(x_test, y_test), validation_freq=1,
                    callbacks=[cp_callback])

model.summary()

用sequntial搭建神经网络:

第一层循环计算层记忆体设定80个,每个时间步推送h𝑡给下一层,使用0.2的Dropout

第二层循环计算层设定记忆体有100个,仅最后的时间步推送h𝑡给下一层,使用0.2的Dropout;

由于输出值是第61天的开盘价只有一个数,所以全连接Dense是1->compile配置训练方法使用adam优化器,使用均方误差损失函数。

在股票预测代码中,只需观测loss,训练迭代打印的时候也只打印loss,所以这里就无需给metrics赋值->设置断点续训,fit执行训练过程->summary打印出网络结构和参数统计。

model.summary()

file = open('./weights.txt', 'w')  # 参数提取
for v in model.trainable_variables:
    file.write(str(v.name) + '\n')
    file.write(str(v.shape) + '\n')
    file.write(str(v.numpy()) + '\n')
file.close()

loss = history.history['loss']
val_loss = history.history['val_loss']

plt.plot(loss, label='Training Loss')
plt.plot(val_loss, label='Validation Loss')
plt.title('Training and Validation Loss')
plt.legend()
plt.show()
################## predict ######################
# 测试集输入模型进行预测
predicted_stock_price = model.predict(x_test)
# 对预测数据还原---从(0,1)反归一化到原始范围
predicted_stock_price = sc.inverse_transform(predicted_stock_price)
# 对真实数据还原---从(0,1)反归一化到原始范围
real_stock_price = sc.inverse_transform(test_set[60:])
# 画出真实数据和预测数据的对比曲线
plt.plot(real_stock_price, color='red', label='MaoTai Stock Price')
plt.plot(predicted_stock_price, color='blue', label='Predicted MaoTai Stock Price')
plt.title('MaoTai Stock Price Prediction')
plt.xlabel('Time')
plt.ylabel('MaoTai Stock Price')
plt.legend()
plt.show()

进行股票预测。用predict预测测试集数据,然后将预测值和真实值从归一化的数值变换到真实数值,最后用红色线画出真实值曲线 、用蓝色线画出预测值曲线。

##########evaluate##############
# calculate MSE 均方误差 ---> E[(预测值-真实值)^2] (预测值减真实值求平方后求均值)
mse = mean_squared_error(predicted_stock_price, real_stock_price)
# calculate RMSE 均方根误差--->sqrt[MSE]    (对均方误差开方)
rmse = math.sqrt(mean_squared_error(predicted_stock_price, real_stock_price))
# calculate MAE 平均绝对误差----->E[|预测值-真实值|](预测值减真实值求绝对值后求均值)
mae = mean_absolute_error(predicted_stock_price, real_stock_price)
print('均方误差: %.6f' % mse)
print('均方根误差: %.6f' % rmse)
print('平均绝对误差: %.6f' % mae)

为了评价模型优劣,给出了三个评判指标:均方误差、均方根误差和平均绝对误差,这些误差越小说明预测的数值与真实值越接近。
图2.34为loss值曲线、图2.35为股票预测曲线、图1.2.36为三个评价指标值。

image-20220426200015505

图2.34 RNN股票预测loss曲线

image-20220426195956618

图2.35 RNN股票预测曲线

image-20220426200343429

图2.36 RNN股票预测评价指标

5 LSTM、GRU

5.1 原始RNN的问题

image-20220426200507063

RNN面临的较大问题是无法解决长跨度依赖问题,即后面节点相对于跨度很大的前面时间节点的信息感知能力太弱。如图2.1.1(图片来源: https://www.jianshu.com/p/9dc9f41f0b29)中的两句话:左上角的句子中sky可以由较短跨度的词预测出来,而右下角句子中的French与较长跨度之前的France有关系,即长跨度依赖,比较难预测。

image-20220426200517664

长跨度依赖的根本问题在于,多阶段的反向传播后会导致梯度消失、梯度爆炸。可以使用梯度截断去解决梯度爆炸问题,但无法轻易解决梯度消失问题。

下面举一个例子来解释RNN梯度消失和爆炸的原因(例子来源:https://zhuanlan.zhihu.com/p/28687529):

假设时间序列有三段,\(h_0\)为给定值,且为了简便假设没有激活函数和偏置,则RNN的前向传播过程如下:

image-20220426200621695

假设在t=3时刻,损失函数为\(loss_3 = \frac{1}{2}(y_3 - y_{true})^2\),其余时刻类似。则\(total\_loss = \frac{1}{2}[(y_1 - y_{true1})^2+(y_2 - y_{true2})^2+(y_3 - y_{true3})^2]\)。梯度下降法训练就是对参数分别求偏导,然后按照梯度反方向调整它们使loss值变小的过程。假设只考虑t=3时刻的,这里考虑\(w_{hh}\)的偏导:

image-20220426201457351

可以看出,只有三个时间点时,\(w_h\)的偏导与\(w_h\)的平方成比例。传统循环网络RNN可以通过记忆体实现短期记忆进行连续数据的预测,但是当连续数据的序列变长时会使展开时间步过长。当时间跨度变长时,幂次将变大。所以,如果\(w_h\)为一个大于0小于1的数,随着时间跨度的增长,偏导值将会趋于0;同理,当\(w_h\)较大时,偏导值将趋于无穷。这就是梯度消失和爆炸的原因。

5.2 LSTM

LSTM由Hochreiter & Schmidhuber 于1997年提出,通过门控单元很好的解决了RNN长期依赖问题。Sepp Hochreiter,Jurgen Schmidhuber.LONG SHORT-TERM MEMORY.Neural Computation,December 1997.
(1) 原理:
为了解决长期依赖问题,长短记忆网络(Long Short Term Memory,LSTM)应运而生。之所以LSTM能解决RNN的长期依赖问题,是因为LSTM使用门(gate)机制对信息的流通和损失进行控制。

image-20220426201528556

图2.2.1 LSTM计算过程

如图2.2.1所示,LSTM引入了三个门限:输入门\(i_t\)、遗忘门\(f_t\)、输出门\(O_t\)
引入了表征长期记忆的细胞态\(C_t\);引入了等待存入长期记忆的候选态$ \widetilde{C_t}$:*

  • 三个门限都是当前时刻的输入特征\(X_t\)和上个时刻的短期记忆\(h_{t-1}\)的函数,分别表示为:

image-20220426202258840

三个公式中\(w_i\)\(w_f\)\(w_o\)是待训练参数矩阵,\(b_i\)\(b_f\)\(b_o\)是待训练偏置项。𝜎为sigmoid激活函数,它可以使门限的范围在0到1之间。

  • 定义\(h_t\)为记忆体,它表征短期记忆,是当前细胞态经过输出门得到的:

记忆体(短期记忆):$h_t = o_t *tanh(C_t) $

  • 候选态表示归纳出的待存入细胞态的新知识,是当前时刻的输入特征\(x_t\)和上个时刻的短期记忆\(h_{t-1}\)的函数:

候选态(归纳出的新知识):$ \widetilde{C_t} = tanh(W_c[h_t-1,x_t] + b_c)$

  • 细胞态\(C_t\)表示长期记忆,它等于上个时刻的长期记忆\(C_{t-1}\)通过遗忘门的值和当前时刻归纳出的新知识\(\widetilde{C_t}\)通过输入门的值之和:

细胞态(长期记忆):\(C_t = f_t *C_{t-1} + i_t * \widetilde{C_t}\)

当明确了这些概念,这里举一个简单的例子理解一下LSTM:

假设LSTM就是我们听老师讲课的过程,目前老师讲到了第45页PPT。我们的脑袋里记住的内容,是PPT第1页到第45页的长期记忆\(C_t\)。它由两部分组成:一部分是PPT第1页到第44页的内容,也就是上一时刻的长期记忆\(C_{t-1}\)。我们不可能一字不差的记住全部内容,会不自觉地忘记了一些,所以上个时刻的长期记忆\(C_{t-1}\)要乘以遗忘门,这个乘积项就表示留存在我们脑中的对过去的记忆;另一部分是当前我们归纳出的新知识\(\widetilde{C_t}\),它由老师正在讲的第45页PPT(当前时刻的输入\(x_t\)) 和第44页PPT的短期记忆留存(上一时刻的短期记忆\(h_{t-1}\))组成。将现在的记忆\(\widetilde{C_t}\)乘以输入门后与过去的记忆一同存储为当前的长期记忆\(C_t\)。接下来,如果我们想把我们学到的知识(当前的长期记忆\(C_t\))复述给朋友,我们不可能一字不落的讲出来,所以\(C_t\)需要经过输出门筛选后才成为了输出\(h_t\)。当

有多层循环网络时,第二层循环网络的输入\(x_t\)就是第一层循环网络的输出\(h_t\),即输入第二层网络的是第一层网络提取出的精华。可以这么想,老师现在扮演的就是第一层循环网络,每一页PPT都是老师从一篇一篇论文中提取出的精华,输出给我们。作为第二层循环网络的我们,接收到的数据就是老师的长期记忆\(C_t\)过tanh激活函数后乘以输出门提取出的短期记忆\(h_t\)

(2)Tensorflow2描述LSTM层
tf.keras.layers.LSTM(神经元个数,return_sequences=是否返回输出)
神经元个数和return_sequences的含义与SimpleRNN相同。
例:LSTM(8, return_sequences=True)

(3)LSTM股票预测
我们只需要将RNN预测股票中的模型更换为

model = tf.keras.Sequential([
    LSTM(80, return_sequences=True),
    Dropout(0.2),
    LSTM(100),
    Dropout(0.2),
    Dense(1)
])

图2.2.3为loss值曲线、图2.2.4为股票预测曲线、图2.2.5为三个评价指标值。

image-20220426204920886

图2.2.3 LSTM股票预测loss曲线

image-20220426204928849

图2.2.4 LSTM股票预测曲线

image-20220426205336734

图2.2.5 LSTM股票预测评价指标

5.3 GRU

GRU由Cho等人于2014年提出,优化LSTM结构。Kyunghyun Cho,Bart van Merrienboer,Caglar Gulcehre,Dzmitry Bahdanau,Fethi Bougares,Holger Schwenk,Yoshua Bengio.Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation.Computer ence, 2014.
(1)原理:
门控循环单元(Gated Recurrent Unit,GRU)是LSTM的一种变体,将LSTM中遗忘门与输入门合二为一为更新门,模型比LSTM模型更简单。

image-20220426205515455

图2.3.1 GRU计算过程

如图2.3.1所示,GRU使记忆体ℎ𝑡𝑡融合了长期记忆和短期记忆。\(h_t\)包含了过去信息\(h_{t-1}\)和现在信息(候选隐藏层)\(\widetilde{h_t}\),由更新门\(Z_t\)分配重要性:

image-20220426205701015

(2)Tensorflow2描述GRU层
tf.keras.layers.GRU(神经元个数, return_sequences=是否返回输出)
神经元个数和return_sequences的含义与SimpleRNN相同。
例:GRU(8, return_sequences=True)

(3)GRU股票预测
我们只需要将RNN预测股票中的模型更换为

model = tf.keras.Sequential([
    GRU(80, return_sequences=True),
    Dropout(0.2),
    GRU(100),
    Dropout(0.2),
    Dense(1)
])

图2.3.3为loss值曲线、图2.3.4为股票预测曲线、图2.3.5为三个评价指标值。

image-20220426210356456

图2.3.3 GRU股票预测loss曲线

image-20220426210438006

图2.3.4 GRU股票预测曲线

image-20220426210025848

图2.3.5 GRU股票预测评价指标

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章