PyTorch學習筆記之自動求導（AutoGrad)

1、使用PyTorch 計算梯度數值

PyTorch 的 Autograd 模塊實現了深度學習的算法中的反向傳播求導數，在張量（Tensor類）上的所有操作， Autograd 都能爲他們自動提供微分，簡化了手動計算導數的複雜過程。

在04以前的版本中， Pytorch 使用 Variabe 類來自動計算所有的梯度 Variable 類主要包含三個屬性 Variable 所包含的 Tensor；grad：保存 data 對應的梯度，grad 也是個 Variable，而不是 Tensor，它和 data 的形狀一樣；grad_fn：指向一個 Function 對象，這個 Function 用來反向傳播計算輸入的梯度;

從 0.4 起， Variable 正式合併入 Tensor 類，通過 Variable 嵌套實現的自動微分功能已經整合進入了 Tensor 類中。雖然爲了的兼容性還是可以使用 Variable（tensor）這種方式進行嵌套，但是這個操作其實什麼都沒做。

以後的代碼建議直接使用 Tensor 類進行操作，因爲官方文檔中已經將 Variable 設置成過期模塊。

想通過 Tensor 類本身就支持了使用 autograd 功能，只需要設置 reques_grad=True；

Variable 類中的的 grad 和 grad_fn 屬性已經整合進入了 Tensor 類中。

2、Autograd

在張量創建時，通過設置 requires_grad 標識爲 True 來告訴 PyTorch 需要對該張量進行自動求導， PyTorch 會記錄該張量的每一步操作歷史並自動計算。

PyTorch 會自動追蹤和記錄對與張量的所有操作，當計算完成後調用 .backward() 方法自動計算梯度並且將計算結果保存到 grad 屬性中。

在張量進行操作後，grad_fn 已經被賦予了一個新的函數，這個函數引用了一個創建了這個 Tensor 類的 Function 對象。 Tensor 和 Function 互相連接生成了一個非循環圖，它記錄並且編碼了完整的計算曆史。每個張量都有個 grad 血屬性，如果這個張量是用戶手動創建的那麼這個張量的 grad 是 None 下面我們來調用反向傳播函數，計算其梯度。

3、簡單自動求

如果 Tensor 類表示的是一個標量（即它包含一個元素的張量），則不需要爲 backwad()（指定任何參數，但是如果它有更多的元素，則需要指定一個 gradient 參數，它是形狀匹配的張量。以上的 z.backward() 相當於是 z.backward(torch. Tensor(1.)) 的簡寫。這種參數常出現在圖像分類中的單標籤分類，輸出一個標量代表圖像的標籤。

4、複雜的自動求導

我們的返回值不是一個標量，所以需要輸入一個大小相同的張量作爲參數，這裏我們用 ones_like 函數根據 x 生成一個張量；

我們可以使用 with torch.no_grad() 上下文管理器臨時禁止對已設置 requires_grad = True 的張量進行自動求導。這個方法在測試集計算準確率的時候會經常用到，例如：

使用.no_grad() 進行嵌套後，代碼不會跟蹤歷史記錄，也就是說保存這部分記錄會減少內存的使用量並且會加快少許的運算速度。

5、 Autograd 過程解析

爲了說明 Torch 的自動求導原理，我們來嘗試分析一下 PyTorch 的源代碼，雖然 Pytorch 的 Tensor和 TensorBase 都是使用 CPP 來實現的，但是可以使用一些 Python 的一些方法查看這些對象在 Python 的屬性和狀態。 Python 的 dir 返回參數的屬性、方法列表。z 是一個 Tensor 變量，看看裏面有哪些成員變量。

返回很多，我們直接排除掉一些 Python 中特殊方法（以開興和結束的）和私有方法（以開頭的，直接看幾個比較主的屬性：.is_leaf: 記錄是否是葉子節點。通過這個屬性來確定這個變量的類型在官方文檔中所說的" graphleaves"，" leaf variables"，都是指像 x,y 這樣的手動創建的、而非運算得到的變量，這些變量成爲創建變量。像 z 這樣的，是通過計算後得到的結果稱爲結果變量。

一個變量是創建變量還是結果變量是通過 .is_leaf() 來獲取的。

x 是手動創建的沒有通過計算，所以他被認爲是一個葉子節點也就是一個創建變量，而 z 是通過x 與 y 的一系列計算得到的，所以不是葉子結點也就是結果變量爲什麼我們執行 z. backward（方法會更新 x.grad 和 y.grad 呢？. grad_fn 屬性記錄的就是這部分的操作，雖然 backward()方法也是CPP 實現的，但是可以通過 Python 來進行簡單的探索。

grad_fn: 記錄並且編碼了完整的計算曆史