1 人工神經網絡結構
1.1 概述
- 人工神經網絡是利用物理器件來模擬生物神經網絡的某些結構和功能。
- 人工神經網絡在本質上是由許多小的非線性函數組成的大的非線性函數,反映的是輸入變量到輸出變量間的複雜映射關係。
- 人工神經網絡是一個並行和分佈式的信息處理網絡結構,該網絡結構一般由許多個神經元組成,每個神經元有一個單一的輸出,他可以連接到很多其他神經元,其輸入有多個連接通路,每個連接通路對應一個連接權係數。
- 人工神經元是人工神經網絡的基本單元。依據生物神經元的結構和功能,可以把他看作一個多輸入單輸出的非線性閾值器件。
1.2 結構
人工神經網絡分爲層狀結構和網狀結構。因爲單個人工神經元不能完成輸入信號的處理,所以需要按照一定的規則連成網絡,並讓網絡中的每個神經元的權值和閾值按照一定的規則變化,才能實現一定的功能要求。
1.2.1 層狀結構
由若干層組成,每層中有一定數量的神經元,相鄰層中神經元單向連接,一般同層內的神經元不能連接。
1.2.2 網狀結構
前饋網絡(前向網絡)
- 不含反饋的前向網絡結構如圖1.1所示。網絡中的神經元分層排列,接受輸入量的神經元節點組成輸入層,產生輸出量的神經元節點組成輸出層,中間層亦稱爲隱層。每一層的神經元只接受前一層神經元的輸入,輸入向量經過各層的順序變換後,由輸出層得到輸出向量。
圖1.1 前向神經網絡
- 不含反饋的前向網絡結構如圖1.1所示。網絡中的神經元分層排列,接受輸入量的神經元節點組成輸入層,產生輸出量的神經元節點組成輸出層,中間層亦稱爲隱層。每一層的神經元只接受前一層神經元的輸入,輸入向量經過各層的順序變換後,由輸出層得到輸出向量。
反饋前向網絡
從輸出層到輸入層有反饋的前向網絡簡稱爲反饋神經網絡,如圖1.2所示。網路中的神經元也是分層排布,但是輸入層神經元在學習過程中接受輸出層神經元或部分輸出層神經元的反饋輸入。-
圖1.2 反饋神經網絡
-
層內有相互結合的前向網絡
每一層的神經元除接受前一層神經元的輸入之外,也可接受同一層神經元的輸入,如圖1.3所示。通過層內神經元的相互結合,可以實現同層神經元之間的抑制或興奮機制,從而可以限制一層內能同時動作的神經元的個數。
圖1.3 層內結合神經網絡 相互結合型網絡
任意兩個神經元之間都可能有連接,在不含反饋的前向網絡中,輸入信號一旦通過某個神經元就將輸出這個信 傳遞,網絡處於一種不斷改變狀態的動態之中,如圖1.4所示。從某初態開始,經過若干次的狀態變化,網絡纔會到達某種穩定狀態,根據網絡的結構和神經元的映射特性,網絡還有可能進入週期振盪或其他平衡動態號的變換值。
圖1.4 相互結合神經網絡
2 人工神經網絡特徵
- 非線性
非線性關係是自然界的普遍特性,人工神經元處於興奮或抑制兩種不同的狀態,這種行爲在數學上表現爲一種非線性關係。具有閾值的神經元構成的網絡具有更好的性能,可以提高容錯性和存儲容量。 - 非侷限性
一個神經網絡通常由多個神經元廣泛連接而成,一個系統的整體行爲不僅取決於單個神經元的特徵,而且可能主要由單元之間的相互作用、相互連接所決定。通過單元間的大量連接模擬大腦的非侷限性。聯想記憶是非侷限性的典型。 - 非常定性
人工神經網絡具有自適應、自組織、自學習能力。神經網絡不但處理的信息可以有各種變化,且在處理信息的同時,非線性動力系統本身也在不斷變化。經常採用迭代過程描寫動力系統的演化過程。 - 非凸性
一個系統的演化方向,在一定條件下取決於某個特定的狀態函數。如能量函數,她的極值相應於系統比較穩定的狀態。非凸性是指這種函數有多個極值,故系統具有多個較穩定的平衡態,將導致系統演化的多樣性。
3 神經元建模的假設
- 每個神經元都是一個多輸入單輸出的信息處理單元。
- 神經元輸入分興奮輸入和一致性輸入。
- 神經元具有空間整合特性和閾值特性。
- 神經元輸入與輸出之間有固定的時滯,主要取決於突出延擱。
- 忽略時間整合作用和不應期。
- 神經元本身是非時變的,即其突出時延和突觸強度均爲常數。
4 人工神經元模型(M-P模型)
- M-P神經元模型
人工神經網絡的基本處理單元,對全部輸入依據不同權重進行整合,以確定各類輸入的作用效果,圖4.1表示組合輸入的“總和”,相當於生物神經元的膜電位,神經元是否激活取決於某一閾值電平,即只有當輸入總和超過閾值時,神經元才被激活二發放脈衝,否則神經元不會產生輸出信號。
圖4.1 M-P神經元模型 - 數學模型:
其中,
:第i個神經元的輸入;
:神經元i到神經元的j權重至;
:神經元的閾值;
:神經元的激活函數(轉移函數);
:神經元j的輸出;
5 激活函數
5.1 作用
激活函數是用來引入非線性因素的。網絡中僅有線性模型的話,表達能力不足。如果一個多層的線性網絡,其表達能力和單層的線性網絡是相同的,網絡中卷積層、池化層和全連接層全是線性的,所以,需要在網絡中引入非線性的激活函數層。
5.2 特性
- 非線性:彌補線性模型的不足。
- 處處可導:反向傳播時需要計算激活函數的偏導數,所以需要激活函數除個別點外,處處可導。
- 單調性:當激活函數是單調的時候,單層網絡能夠保證是凸函數。
- 輸出值的範圍:當激活函數輸出值是有限的時候,基於梯度的優化方法會更加穩定,因爲特徵的表示受有限權值的影響更加顯著,當激活函數的輸出爲無限的時候,模型的訓練會更加有效,不過這種情況下,一般需要更小的learning rate。
- 常見激活函數
sigmod、tanh、relu,其中Relu效果最好,使用較廣泛。
5.3 激活函數實例
- 使用MatLab繪製激活函數圖像。
- 閾值型激活函數
圖5.1 閾值型激活函數 - 非線性激活函數(sigmod)
圖5.2 非線性激活函數 - 雙曲正切激活函數
圖5.3 雙正切激活函數 - Relu(Rectified Linear Units)激活函數
圖5.4 Relu激活函數
6 術語解析
- 網絡訓練
要使網絡模型實現某種功能,必須對他進行訓練,讓他逐步學會要做的事情,並把所學到的知識記憶在網絡的權值(weight)中,人工神經網絡權值的確定不是通過計算,而是通過網絡的自身訓練來完成。調整權重類似於智能過程,網絡最重要的信息存在於調整過的權重之中。於是,神經網絡的關鍵在於如何決定每一神經元的權值。 - 網絡學習
神經網絡模型是怎樣確定最後的權重值,即學習的過程,相應的由很多學習準則,網絡的訓練和學習是一起討論的,都是通過訓練集獲取權重,完成模型訓練。
由於訓練網絡權值的原理不同,從而形成各種各樣的神經網絡學習規則。常用規則有Hebb、感知器(Perceptron)Delta、反向傳播學習、Widrow-Hoff、相關(Correlation)、勝者爲王(Winner-Take-All)、外星(outstar)、最小均方(LMS)、Kohonen和Grosberg。 - 泛化能力
經過訓練(學習)後的預測模型對爲經訓練的數據集中出現的樣本做出正確反應的能力。學習不是簡單地記憶已經學習過的輸入,而是通過對有限個訓練樣本的學習,學到隱含在樣本中的有關環境本身的內在規律性。