Pytorch —— 优化器Optimizer（二）

1、learning rate学习率

梯度下降： $w_{i+1}=w_{i}-LR*g\left(w_{i}\right)$ 梯度是沿着负梯度方向进行更新的，学习率控制更新的步伐；

2、momentum动量

Momentum（动量，冲量）：结合当前梯度与上一次更新信息，用于当前更新；

学习动量法之前，先来学习指数加权平均： $\mathrm{v}_{t}=\beta * v_{t-1}+(1-\beta) * \theta_{t}$ Pytorch中的梯度更新公式为： $\boldsymbol{v}_{\boldsymbol{i}}=\boldsymbol{m} * \boldsymbol{v}_{\boldsymbol{i}-1}+\boldsymbol{g}\left(\boldsymbol{w}_{\boldsymbol{i}}\right)$ $w_{i+1}=w_{i}-l r * v_{i}$ 公式中的 $w_{i+1}$ 为第i+1次更新的参数， $lr$ 为学习率， $v_i$ 为更新量， $m$ 为momentum系数， $g(w_i)$ 为 $w_i$ 的梯度。

3、torch.optim.SGD

主要参数：

params：管理的参数组，参数组是一个list，list中的每一个元素是一个dict；
lr：学习率；
momentum：动量系数，贝塔；
weight_decay：L2正则化系数；
nesterov：布尔变量，是否采用NAG梯度下降方法，默认为False；

optim.SGD(params,lr=<object object>,momentum=0,dampening=0,weight_decay=0,nesterov=False)

4、Pytorh的十种优化器

optim.SGD：随机梯度下降法；
optim.Adagrad：自适应学习率梯度下降法；
optim.RMSprop：Adagrad的改进
optim.Adadelta：Adagrad的改进；
optim.Adam：RMSprop结合Momentum；
optim.Adamax：Adam增加学习率上限；
optim.SparseAdam：稀疏版的Adam；
optim.ASGD：随机平均梯度下降；
optim.Rprop：弹性反向传播；
10.optim.LBFGS ：BFGS的改进；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Pytorch —— 优化器Optimizer（二）

1、learning rate学习率

2、momentum动量

3、torch.optim.SGD

4、Pytorh的十种优化器

.Net 8.0 下的新RPC，IceRPC之试试的新玩法"打洞"

完美替代postman的软件

Vue mockjs mock.js

关于游戏付费的一点想法

我通过CKA和CKS啦！

安装chromadb注意事项

《最新出炉》系列入门篇-Python+Playwright自动化测试-42-强大的可视化追踪利器Trace Viewer

大数据怎么学？对大数据开发领域及岗位的详细解读，完整理解大数据开发领域技术体系

leetcode —— 959. 由斜槓劃分區域

Python詞彙比較運算符

Python —— any()函數和all()函數

Pytorch —— 模型保存與加載

leetcode —— 40. 組合總和 II

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結