pytorch grad_fn以及權重梯度不更新的問題

原創

端木亽

2018-12-31 01:48

前提：我訓練的是二分類網絡，使用語言爲pytorch

Varibale包含三個屬性：

data：存儲了Tensor，是本體的數據
grad：保存了data的梯度，本事是個Variable而非Tensor，與data形狀一致
grad_fn：指向Function對象，用於反向傳播的梯度計算之用

在構建網絡時，剛開始的錯誤爲：沒有可以grad_fn屬性的變量。
百度後得知要對需要進行迭代更新的變量設置requires_grad=True ，操作如下：

train_pred = Variable(train_pred.float(), requires_grad=True)`

這樣設置之後網絡是跑起來了，但是準確率一直沒有提升，很明顯可以看出網絡什麼都沒學到。
我輸出 model.parameters() (網絡內部的權重和偏置)查看，發現它的權重並沒有更新，一直是同一個值，至此可以肯定網絡什麼都沒學到，還是迭代那裏出了問題。
詢問同門後發現問題不在這裏。
計算loss時，target與train_pred的size不匹配，我以以下操作修改了train_pred，使兩者尺寸一致，才導致了上述問題。

        train_pred = model(data)
        train_pred = torch.max(train_pred, 1)[1].data.squeeze()
        train_pred = Variable(train_pred.float(), requires_grad=False)
        train_loss = F.binary_cross_entropy(validation_pred.float(), target)
        train_loss.backward()

對train_pred多次處理後，它已無法正確地反向傳播，實際上應該更改target，使其與train_pred size一致。

重點！！！要想loss正確反向傳播，應直接將model(data)傳入loss函數。

最終修改代碼如下：

    for batch_idx, (data, target) in enumerate(train_loader):
        # Get Samples
        label = target.view(target.size(0), 1).long()
        target_onehot = torch.zeros(data.shape[0], args.num_classes).scatter_(1, label, 1)
        data, target_onehot = Variable(data.cuda()), Variable(target_onehot.cuda().float())
        
        model.zero_grad()

        # Predict
        train_pred = model(data)
        train_loss = F.binary_cross_entropy(train_pred, target_onehot)
        train_loss.backward()
        optimizer.step()

參考文獻：

[1]. pytorch入門教程
[2]. 『PyTorch』第三彈重置_Variable對象

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

pytorch grad_fn以及權重梯度不更新的問題

前提：我訓練的是二分類網絡，使用語言爲pytorch

Varibale包含三個屬性：

重點！！！要想loss正確反向傳播，應直接將model(data)傳入loss函數。

參考文獻：

I/O模型前期知識

劍指offer（十三）

pytorch復現loss遇到的問題

KMP模式匹配算法

劍指offer（十）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結