NLP第一课: 深度学习简介和常识

原創

ruclion

2020-02-24 04:09

FP和BP和消失爆炸

梯度消失和爆炸简化解释- -link
梯度消失及其解决方法- -link

解决零: relu, clip, loss正则化. BN. 数值

relu、leakrelu、elu等激活函数
clip
正则化
BN着重了解.

解决一: [DBN]大话解释和应用. 预训练

link

要用一次

1.用PCA监督训练各层也可以, 类似于RBM. 隐含着等维度, 不同表示的转换和信息等价的判定, 稀疏化等都是基于此, 用auto-encoder后半段decoder来判定, 其实维度增加都是生成模型, 把先验或条件信息过拟合在网络中.
但是刚开始没有指引性, 应该把最终标签作为指引, Condition-DBN.

2.思想可以迁移到任何网络的初始化.

随着神经网络层数的增加，深度神经网络的模型参数很多，就要求在训练时需要有很大的标签数据，因为训练数据少的时候很难找到最优解，也就是说深度神经网络不具备解决小样本问题的能力。小样本语音思路
回想一下RBM，由可见层、隐层组成，显元用于接受输入，隐元用于提取特征，因此隐元也有个别名，叫特征检测器。也就是说，通过RBM训练之后，可以得到输入数据的特征。（感性对比：联想一下主成分分析，提取特征）
另外，RBM还通过学习将数据表示成概率模型，一旦模型通过无监督学习被训练或收敛到一个稳定的状态，它还可以被用于生成新数据。（感性对比：联想一下曲线拟合，得出函数，可用于生成数据）

解决二: LSTM思想. ResNet. 跳跃.

视野放大.

要用

LSTM全称是长短期记忆网络（long-short term memory networks），是不那么容易发生梯度消失的，主要原因在于LSTM内部复杂的“门”(gates)，LSTM通过它内部的“门”可以接下来更新的时候“记住”前几次训练的”残留记忆“，因此，经常用于生成文本中。目前也有基于CNN的LSTM，感兴趣的可以尝试一下。

Gradient Reversal

link
实际上, loss取反含义一样, 但是-loss就成负无穷了.
而-λ还可以调控.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

NLP第一课: 深度学习简介和常识

FP和BP和消失爆炸

解决零: relu, clip, loss正则化. BN. 数值

解决一: [DBN]大话解释和应用. 预训练

解决二: LSTM思想. ResNet. 跳跃.

Gradient Reversal

如何使用 JS 判断用户是否处于活跃状态

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

❤️‍🔥 Solon Cloud Event 新的事务特性与应用

kaggle比賽一之ieee-fraud-detection

嘗試nvidia的Tacotron-2和waveglow的結合, 並且着重考慮多GPU以及inference時的性能.

簡單的基於Tacotron2的中英文混語言合成, 包括code-switch和voice clone. 以及深入結構設計的探討.

Tensorflow1.x查看ckpt變量情況, 以及爲之後部分恢復權重做鋪墊.

Pycharm爲核心在構建服務器端深度學習語音合成程序時的配置和技巧

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結