神經網絡 Neural Networks

非線性假設 Non-linear Hypotheses

無論是線性迴歸還是邏輯迴歸都有這樣一個缺點，即：當特徵太多時，計算的負荷會非常大。

例如：

當我們使用, 的多次項式進行預測時，可以應用的很好。假設我們有非常多的特徵，例如大於100個變量，我們希望用這100個特徵來構建一個非線性的多項式模型，結果將是數量非常驚人的特徵組合，即便我們只採用兩兩特徵的組合

$x_1x_2+x_1x_3+...+x_2x_3+x_2x_4+...+x_{99}x_{100}$

我們也會有接近5000個組合而成的特徵。這對於一般的邏輯迴歸來說需要計算的特徵太多了。

假如我們只選用灰度圖片，每個像素則只有一個值（而非 RGB值），我們可以選取圖片上的兩個不同位置上的兩個像素，然後訓練一個邏輯迴歸算法利用這兩個像素的值來判斷圖片上是否是汽車：

假使我們採用的都是50x50像素的小圖片，並且我們將所有的像素視爲特徵，則會有 2500個特徵，如果我們要進一步將兩兩特徵組合構成一個多項式模型，則會有約個（接近3百萬個）特徵。普通的邏輯迴歸模型，不能有效地處理這麼多的特徵，這時候我們需要神經網絡。

神經元和大腦

神經網絡是一種很古老的算法，它最初產生的目的是製造能模擬大腦的機器。神經網絡逐漸興起於二十世紀八九十年代，應用得非常廣泛。但由於各種原因，在90年代的後期應用減少了。但是最近，神經網絡又東山再起了。其中一個原因是：神經網絡是計算量有些偏大的算法。然而大概由於近些年計算機的運行速度變快，才足以真正運行起大規模的神經網絡。我們能學習數學，學着做微積分，而且大腦能處理各種不同的令人驚奇的事情。似乎如果你想要模仿它，你得寫很多不同的軟件來模擬所有這些五花八門的奇妙的事情。不過能不能假設大腦做所有這些，不同事情的方法，不需要用上千個不同的程序去實現。

模型表示

神經網絡模型建立在很多神經元之上，每一個神經元又是一個個學習模型。這些神經元（也叫激活單元activation unit）採納一些特徵作爲輸出，並且根據本身的模型提供一個輸出。下圖是一個以邏輯迴歸模型作爲自身學習模型的神經元示例，在神經網絡中，參數又可被成爲權重(weight)。

設計出類似於神經元的神經網絡，效果如下：

其中是輸入單元（input units），我們將原始數據輸入給它們。是中間單元，它們負責將數據進行處理，然後呈遞到下一層。最後是輸出單元，它負責計算 $h_\Theta(x)$ 。

神經網絡模型是許多邏輯單元按照不同層級組織起來的網絡，每一層的輸出變量都是下一層的輸入變量。下圖爲一個3層的神經網絡，第一層成爲輸入層（Input Layer），最後一層稱爲輸出層（Output Layer），中間一層成爲隱藏層（Hidden Layers）。我們爲每一層都增加一個偏差單位（bias unit）