● 每週一言

經驗不一定是真理，但通常都很管用。

導語

人工神經網絡（ANN）作爲機器學習當下最熱門的模型，在圖像識別、語音識別以及各種分類問題中，帶來的效果與收益有目共睹。那麼，神經網絡模型具體是如何起作用的？如何直觀感受神經網絡的內部工作原理？

拋磚引玉

爲了方便理解與表達，我們假設所有的輸入值與標籤非1即0，01的表示方式正好也能拿來描述神經元的激活狀態。首先，我們從單層神經網絡開始聊起。單層神經網絡類似下圖所示：

假設有二維數據(x1, x2 -> y)，有(0, 1 -> 1)、(1, 0 -> 1)、(0, 0 -> 0)、(1, 1 -> 0)，可知這是一組抑或操作的結果，而在一個二維空間內是沒法用一條直線來劃分01類別的，因此需要空間變換。比如，可以將二維的輸入數據轉化成另一個二維空間的數據(0.5, 0 -> 1)、(0.5, 0 -> 1)、(0, 0 -> 0)、(1, 1 -> 0)，規則是第一個神經元取x1、x2的平均值，而第二個神經元則將x1、x2相乘。此時，我們就可以用一條直線將01兩類區分開來了。

因此，單層神經網絡相當於從一個空間映射到另一個空間的過程。那麼單層神經網絡是不是就能解決所有問題了？答案是否定的，比如一個高維分類問題，如果使用單層神經網絡，當神經元的個數增加到一定數量，也就是轉化到某個高維度時，一定可以找到一個平面來完美切分轉化後的數據。但是，得到的模型通常由於過擬合，使得泛化能力比較低。而且，單層模型由於只經過了一層線性變換，模型的分類能力也較爲有限。因此，多層神經網絡便出現了。