NLP第一课: 深度学习简介和常识

FP和BP和消失爆炸

梯度消失和爆炸简化解释- -link
梯度消失及其解决方法- -link
在这里插入图片描述

解决零: relu, clip, loss正则化. BN. 数值

relu、leakrelu、elu等激活函数
clip
正则化
BN着重了解.

  • BN

解决一: [DBN]大话解释和应用. 预训练

link

  • 要用一次

1.用PCA监督训练各层也可以, 类似于RBM. 隐含着等维度, 不同表示的转换和信息等价的判定, 稀疏化等都是基于此, 用auto-encoder后半段decoder来判定, 其实维度增加都是生成模型, 把先验或条件信息过拟合在网络中.
但是刚开始没有指引性, 应该把最终标签作为指引, Condition-DBN.
在这里插入图片描述
2.思想可以迁移到任何网络的初始化.

随着神经网络层数的增加,深度神经网络的模型参数很多,就要求在训练时需要有很大的标签数据,因为训练数据少的时候很难找到最优解,也就是说深度神经网络不具备解决小样本问题的能力。小样本语音思路
回想一下RBM,由可见层、隐层组成,显元用于接受输入,隐元用于提取特征,因此隐元也有个别名,叫特征检测器。也就是说,通过RBM训练之后,可以得到输入数据的特征。(感性对比:联想一下主成分分析,提取特征)
另外,RBM还通过学习将数据表示成概率模型,一旦模型通过无监督学习被训练或收敛到一个稳定的状态,它还可以被用于生成新数据。(感性对比:联想一下曲线拟合,得出函数,可用于生成数据)

解决二: LSTM思想. ResNet. 跳跃.

视野放大.

  • 要用

LSTM全称是长短期记忆网络(long-short term memory networks),是不那么容易发生梯度消失的,主要原因在于LSTM内部复杂的“门”(gates),LSTM通过它内部的“门”可以接下来更新的时候“记住”前几次训练的”残留记忆“,因此,经常用于生成文本中。目前也有基于CNN的LSTM,感兴趣的可以尝试一下。

Gradient Reversal

link
实际上, loss取反含义一样, 但是-loss就成负无穷了.
而-λ还可以调控.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章