optimizer.zero_grad()

原創

2020-04-20 15:28

optimizer.zero_grad()意思是把梯度置零，也就是把loss關於weight的導數變成0.

在學習pytorch的時候注意到，對於每個batch大都執行了這樣的操作：

        # zero the parameter gradients
        optimizer.zero_grad()
        # forward + backward + optimize
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

對於這些操作我是把它理解成一種梯度下降法，貼一個自己之前手寫的簡單梯度下降法作爲對照：

    # gradient descent
    weights = [0] * n
    alpha = 0.0001
    max_Iter = 50000
    for i in range(max_Iter):
        loss = 0
        d_weights = [0] * n
        for k in range(m):
            h = dot(input[k], weights)
            d_weights = [d_weights[j] + (label[k] - h) * input[k][j] for j in range(n)] 
            loss += (label[k] - h) * (label[k] - h) / 2
        d_weights = [d_weights[k]/m for k in range(n)]
        weights = [weights[k] + alpha * d_weights[k] for k in range(n)]
        if i%10000 == 0:
            print "Iteration %d loss: %f"%(i, loss/m)
            print weights

可以發現它們實際上是一一對應的：

optimizer.zero_grad()對應d_weights = [0] * n

即將梯度初始化爲零（因爲一個batch的loss關於weight的導數是所有sample的loss關於weight的導數的累加和）

outputs = net(inputs)對應h = dot(input[k], weights)

即前向傳播求出預測的值

loss = criterion(outputs, labels)對應loss += (label[k] - h) * (label[k] - h) / 2

這一步很明顯，就是求loss（其實我覺得這一步不用也可以，反向傳播時用不到loss值，只是爲了讓我們知道當前的loss是多少）
loss.backward()對應d_weights = [d_weights[j] + (label[k] - h) * input[k][j] for j in range(n)]

即反向傳播求梯度
optimizer.step()對應weights = [weights[k] + alpha * d_weights[k] for k in range(n)]

即更新所有參數

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

optimizer.zero_grad()

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

opencl

NEON_16

NEON_13

NEON_12

模版片特化的特殊用法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結