神經網絡

1.設計一個神經網絡時，輸入層與輸出層的節點數往往是固定的，中間層則可以自由指定。
2.神經網絡結構圖中的拓撲與箭頭代表着預測過程時數據的流向。
3.結構圖裏的關鍵不是圓圈（代表“神經元”），而是連接線（代表“神經元”之間的連接）。每個連接線對應一個不同的權重（其值稱爲權值），這是需要訓練得到的。
4.神經元模型是一個包含輸入，輸出與計算功能的模型。
5.當我們用“神經元”組成網絡以後，描述網絡中的某個“神經元”時，我們更多地會用“單元”（unit）來指代。同時由於神經網絡的表現形式是一個有向圖，有時也會用“節點”（node）來表達同樣的意思。
6.感知器是當時首個可以學習的人工神經網絡（由兩層神經元組成的神經網絡）。
7.感知器只能做簡單的線性分類任務，尤其是感知器對XOR（異或）這樣的簡單分類任務都無法解決。
8.兩層神經網絡（計算層有兩層）不僅可以解決異或問題，而且具有非常好的非線性分類效果。
9.偏置節點（bias unit）是默認存在的，它本質上是一個只含有存儲功能，且存儲值永遠爲1的單元。在神經網絡的每個層次中，除了輸出層以外，都會含有這樣一個偏置單元。一般情況下，我們都不會明確畫出偏置節點。
10.在兩層神經網絡中，我們不再使用sgn函數作爲函數g，而是使用平滑函數sigmoid作爲函數g。我們把函數g也稱作激活函數（active function）。
11.理論證明，兩層神經網絡可以無限逼近任意連續函數。
12.線性可分是如果用一個線性函數可以將兩類樣本完全分開，就稱這些樣本是“線性可分”的。
線性函數：設 V 和 W 是在相同域 K 上的向量空間。函數 f : V → W 被稱爲是線性映射，如果對於 V 中任何兩個向量 a和 b與 K 中任何標量 k，滿足下列兩個條件：

即其維持向量加法與標量乘法。如果W等同域K，也稱f是V上的一個線性函數。
向量空間：向量空間的本質也是它的運算規則，它是定義了兩種運算滿足八條規則的集合，是對n維向量運算的概括抽象，這一抽象大大擴充了向量的概念，向量這一概念不單指有序實數列，還可以是函數、矩陣、多項式、映射等等，所以向量空間的元素究竟是什麼就變得不重要了。
向量空間亦稱線性空間。
設V是一個非空集合，P是一個域。若：
a.在V中定義了一種運算，稱爲加法，即對V中任意兩個元素α與β都按某一法則對應於V內惟一確定的一個元素α+β，稱爲α與β的和。
b.在P與V的元素間定義了一種運算，稱爲純量乘法(亦稱數量乘法)，即對V中任意元素α和P中任意元素k，都按某一法則對應V內惟一確定的一個元素kα，稱爲k與α的積。
c.加法與純量乘法滿足以下條件：
1)) α+β=β+α，對任意α，β∈V.
2) α+(β+γ)=(α+β)+γ，對任意α，β，γ∈V.
3) 存在一個元素0∈V，對一切α∈V有α+0=α，元素0稱爲V的零元.
4) 對任一α∈V，都存在β∈V使α+β=0，β稱爲α的負元素，記爲-α.
5) 對P中單位元1，有1α=α(α∈V).
6) 對任意k，l∈P，α∈V有(kl)α=k(lα).
7) 對任意k，l∈P，α∈V有(k+l)α=kα+lα.
8) 對任意k∈P，α，β∈V有k(α+β)=kα+kβ，
則稱V爲域P上的一個線性空間，或向量空間。V中元素稱爲向量，V的零元稱爲零向量，P稱爲線性空間的基域.當P是實數域時，V稱爲實線性空間.
數域：指某些數的一個範圍，在這個範圍內的一般運算(加、減、乘、除、開方)後，得到的結果作在這個數域內，如：複數數域，實數數域，……
13. 兩層神經網絡爲什麼可以進行非線性分類？
兩層神經網絡中，隱藏層對原始的數據進行了一個空間變換，使其可以被線性分類，然後輸出層的決策分界劃出了一個線性分類分界線，對其進行分類。
14.多層的神經網絡的本質就是複雜函數擬合。
15.如何決定這個自由層的節點數呢？
較好的方法就是預先設定幾個可選值，通過切換這幾個值來看整個模型的預測效果，選擇效果最好的值作爲最終選擇。這種方法又叫做Grid Search（網格搜索）。
14. 機器學習模型訓練的目的，就是使得參數儘可能的與真實的模型逼近。具體做法是這樣的。首先給所有參數賦上隨機值。我們使用這些隨機生成的參數值，來預測訓練數據中的樣本。樣本的預測目標爲yp，真實目標爲y。那麼，定義一個值loss，計算公式如下。

這個值稱之爲損失（loss），我們的目標就是使對所有訓練數據的損失和儘可能的小。
15. 稱以負梯度方向爲迭代方向（d_k = -g_k）的方法爲負梯度方法。特別地，稱採用精確線搜索的步長，以負梯度方向爲迭代方向的方法爲最速下降方法。
16.機器學習問題之所以稱爲學習問題，而不是優化問題，就是因爲它不僅要求數據在訓練集上求得一個較小的誤差，在測試集上也要表現好。因爲模型最終是要部署到沒有見過訓練數據的真實場景。提升模型在測試集上的預測效果的主題叫做泛化（generalization），相關方法被稱作正則化（regularization）。神經網絡中常用的泛化技術有權重衰減。
17.但是神經網絡仍然存在若干的問題：儘管使用了BP算法，一次神經網絡的訓練仍然耗時太久，而且困擾訓練優化的一個問題就是局部最優解問題，這使得神經網絡的優化較爲困難。同時，隱藏層的節點數需要調參，這使得使用不太方便，工程和研究人員對此多有抱怨。
18.SVM（Support Vector Machines，支持向量機）算法對比神經網絡的優勢：無需調參；高效；全局最優解。
16. 增加更多的層次有什麼好處？更深入的表示特徵，以及更強的函數模擬能力。
17. 在單層神經網絡時，我們使用的激活函數是sgn函數。到了兩層神經網絡時，我們使用的最多的是sigmoid函數。而到了多層神經網絡時，通過一系列的研究發現，ReLU函數在訓練多層神經網絡時，更容易收斂，並且預測性能更好。因此，目前在深度學習中，最流行的非線性函數是ReLU函數。ReLU函數不是傳統的非線性函數，而是分段線性函數。其表達式非常簡單，就是y=max(x,0)。簡而言之，在x大於0，輸出就是輸入，而在x小於0時，輸出就保持爲0。這種函數的設計啓發來自於生物神經元對於激勵的線性響應，以及當低於某個閾值後就不再響應的模擬。
18. 當使用足夠強的計算芯片（例如GPU圖形加速卡）時，梯度下降算法以及反向傳播算法在多層神經網絡中的訓練中仍然工作的很好。目前學術界主要的研究既在於開發新的算法，也在於對這兩個算法進行不斷的優化，例如，增加了一種帶動量因子（momentum）的梯度下降算法。
19. 在深度學習中，泛化技術變的比以往更加的重要。這主要是因爲神經網絡的層數增加了，參數也增加了，表示能力大幅度增強，很容易出現過擬合現象。因此正則化技術就顯得十分重要。目前，Dropout技術，以及數據擴容（Data-Augmentation）技術是目前使用的最多的正則化技術。
20. 三起三落的神經網絡：

21.神經網絡的表示能力不斷加強

21. 神經網絡的類別

神經網絡淺講：從神經元到深度學習
https://www.cnblogs.com/subconscious/p/5058741.html