5 神經網絡（PRML）

之前我們討論的模型是對於分類的迴歸模型，包含了線性組合的多個基礎函數。但是他的應用範圍有一定的限制。另外一個方法在於事先限定基礎函數的個數並且使得他可自適應的，也就是說使得他的參數值在訓練當中是可以發生變化的，其中最成功的模型是前向神經網絡(feed-forward network)，也稱作多層認知模型(Multilayer perceptron)。

1、前向網絡函數

在第三章和第四章中討論的迴歸線性分類模型的原型爲：

其中f()是一個用於分類非線性的激活函數，我們的目標在於將基本函數基於參數然後允許這些參數能夠被調整，我們首先構建M個這些線性值的組合：

得到這個aj值之後，緊接着我們得到：，這個函數所作用的節點稱作隱藏節點（hidden units）,而非線性函數h()通常使用sigmoid函數或者tanh函數，這些值通常被線性組合得到：

其中：

因此:

因爲在神經網絡圖中存在一個直接的關係，我們可以使用一個普遍的函數關係，但是，這個函數關係僅限於前向神經網絡，而對於每一層節點，函數爲：

2、神經網絡訓練

對於前向網絡模型，我們對於訓練的一個目標在於減小誤差：

我們首先通過討論迴歸函數問題當我們討論一個目標變量t時：

因此對於多個數據我們可得：

我們對上式取負對數，可得：

因此，去掉後面的常數去掉，需要最小化的項爲：

當我們找到上式的最小值wML，可以得到：

因此，最小化總的式子的誤差值爲：

我們首先考慮從兩個類的分類情形：當t=1爲C1，t=0時爲C2,我們考慮從一個網絡模型，有一個單個輸出值，他的激活函數爲logistic sigmoid：

我們可以將y(x,w)解釋爲條件概率p(C1|x),而p(C2|x)爲1-p(x,w),我們可以將概率寫成如下的貝努利分佈格式：

因此，誤差函數可以取負對數：

同樣，對於有多個訓練樣本，我們可以得到：

因此誤差函數爲：

因此，當遇到多個類的分類情況（K個類）時，我們應當將使用如下條件：tk∈｛0，1｝，輸出函數被解釋爲：y(x,w)=p(tk=1|x)。

而在第四章中我們討論得：

赫斯矩陣(Hessian Matrix)：

我們顯示了錯誤回溯可以被用於錯誤函數的二次導數，由以下的式子顯示：

赫斯矩陣在神經網絡計算中扮演這一個非常具有重要的位置：

1、一些非線性優化算法使用訓練神經網絡，神經網絡用於基於被赫斯矩陣控制的錯誤函數的二次屬性。

2、赫斯矩陣對前向神經網絡的再訓練生成一個快速的過程。

3、赫斯矩陣的逆置可以被用於識別最小神經網絡權值。

4、赫斯矩陣在貝葉斯神經網絡的拉普拉斯預測(Laplace approximation)，他的逆置可以被用於決定訓練網絡的預測分佈，他的特徵值決定了超參數的值，他的行列式被用於估算模型的證據。

對角線估計

赫斯矩陣的對角線爲：

我們忽略非對角線的元素，可以獲得：

外部結果預測（Outer product approximation）

我們可以寫下赫斯矩陣爲如下形式：

通過忽略上式的第二項我們可以得到一個成爲Levenberg-Marquardt的預測或者outer product預測：

逆置赫斯矩陣:

首先我們寫出outer product 的預測值爲：

假設我們已經獲得L個數據點的逆置赫斯矩陣，通過分離

因此我們考慮赫斯矩陣的逆置，我們可以得到：

最終導數

赫斯矩陣的精確預測

我們之前已經討論了很多對於赫斯矩陣的估計，我們這裏對赫斯矩陣做出精確的預測：首先我們預定義一下的標誌：

對於兩個都在第二層的：

兩個權值都在第一層中：

其中一個在第一層另一個在第二層中：

赫斯矩陣的快速乘法

在很多的赫斯矩陣的應用中，我們所感興趣的並不是赫斯矩陣本身，而是赫斯矩陣和某一個向量v的相乘的一個結果而則是我們所希望得到的結果，爲了做到這一點我們首先標記：

對於這個標記，我們使用R{.}來標識，因此。

我們還可以得到多個關係式：

我們還可以得到一下的式子：

神經網絡的正規化

我們在第一章中可以看到，爲了規避“過度擬合(overfitting)"所帶來的問題，我們可以在誤差函數後面加一個正規化項：

但是，對於上面的式子，也是存在一定的誤差的。就是因爲它和具體的範圍屬性不一致，爲了凸顯這個問題，我們考慮一個兩層模型，第一層隱含單元的激活函數爲如下的形式：

假設我們使用一個轉換模式：

然後我們可以做一下的轉化：

因此可以把輸出結果轉化爲：

因此，如果需要一個修正項能夠對這些轉化過程不發生變化，那麼，這樣的修正項可以被寫爲：

一旦發生上面的變量的變化，我們可以採取一下轉化：