optimizer.zero_grad()

optimizer.zero_grad()意思是把梯度置零,也就是把loss關於weight的導數變成0.

在學習pytorch的時候注意到,對於每個batch大都執行了這樣的操作:

        # zero the parameter gradients
        optimizer.zero_grad()
        # forward + backward + optimize
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

對於這些操作我是把它理解成一種梯度下降法,貼一個自己之前手寫的簡單梯度下降法作爲對照:

    # gradient descent
    weights = [0] * n
    alpha = 0.0001
    max_Iter = 50000
    for i in range(max_Iter):
        loss = 0
        d_weights = [0] * n
        for k in range(m):
            h = dot(input[k], weights)
            d_weights = [d_weights[j] + (label[k] - h) * input[k][j] for j in range(n)] 
            loss += (label[k] - h) * (label[k] - h) / 2
        d_weights = [d_weights[k]/m for k in range(n)]
        weights = [weights[k] + alpha * d_weights[k] for k in range(n)]
        if i%10000 == 0:
            print "Iteration %d loss: %f"%(i, loss/m)
            print weights

可以發現它們實際上是一一對應的:

optimizer.zero_grad()對應d_weights = [0] * n

即將梯度初始化爲零(因爲一個batch的loss關於weight的導數是所有sample的loss關於weight的導數的累加和)

outputs = net(inputs)對應h = dot(input[k], weights)

即前向傳播求出預測的值

loss = criterion(outputs, labels)對應loss += (label[k] - h) * (label[k] - h) / 2

這一步很明顯,就是求loss(其實我覺得這一步不用也可以,反向傳播時用不到loss值,只是爲了讓我們知道當前的loss是多少)
loss.backward()對應d_weights = [d_weights[j] + (label[k] - h) * input[k][j] for j in range(n)]

即反向傳播求梯度
optimizer.step()對應weights = [weights[k] + alpha * d_weights[k] for k in range(n)]

即更新所有參數

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章