人工神經網絡概述

一. 生物神經系統及構成

近幾十年來,神經科學和腦功能的研究快速發展,並取得了很大進展。神經科學主要研究生物神經系統的結構、功能和發育等,對生物行爲及學習的研究都屬於神經科學的分支。人腦是人類智能與高級精神活動的生理基礎,其研究涉及分子層面、細胞層面、神經元羣體和神經系統等多個領域,人的思想、信仰、記憶、行爲和情感等都與腦密不可分。通過對腦的結構與功能的研究,提示腦進行思維活動的本質,建立腦模型,極大地促進了智能科學的發展。

神經元(neuron)作爲一種高度特化的細胞,是構成神經系統的基本功能單元。雖然各類神經組織的功能不同,神經元類型存在差異,各種神經元細胞的形態、體積也各不相同,但神經元在結構上相對比較簡單,所有神經元細胞都具有相似的結構和基本特性。一個典型的生物神經元主要包括如下幾個部分:①細胞體(soma),這是神經元的核心,由細胞核、細胞質和細胞膜等組成,負責處理接受到的信號;②樹突(dendrite),指從神經元細胞體向外伸出的許多較短的分支,它們充當着神經元的輸入端,接受來自其他神經元的神經衝動並傳遞給細胞體;③軸突(axon),指由神經元細胞體向外伸出的一條最長的分支,它是管狀纖維組織,充當神經元的輸出端,在軸突末端有很多神經末梢,它們向外發出神經活動。

神經元之間進行信息傳遞時,由神經元傳出的脈衝信號通過軸突到達軸突末梢,這使得其中的囊泡產生變化而釋放神經遞質,神經遞質通過突觸的間隙進入另一個神經元的樹突中。樹突上的受體能夠接受神經遞質,從而改變細胞膜對離子的通透性,使細胞膜內外離子濃度差產生變化,最終導致細胞膜電位發生變化。當神經元通過樹突接受來自其他神經元發放的脈衝信號時,膜電位在開始時隨着時間的增加而連續變化。當膜電位的變化超過一個閾值時,才產生突變上升的脈衝,這個脈衝幾乎可以不衰減地沿着軸突傳遞到其他神經元。神經元的這種膜電位高達一定閾值才產生脈衝傳遞的特性稱爲閾值特性。對神經元細胞的研究結果表明,神經元對來自其他神經元的信息具有時空整合特性。在神經網絡結構上,大量不同神經元的軸突末梢可以到達同一個神經元的樹突並形成大量突觸。來源不同的突觸所釋放的神經遞質都可以對同一個神經元的膜電位變化產生作用。因此,在樹突結構上神經元可以對不同來源的輸入信息進行整合,這就是神經元對信息的空間整合特性。此外,對於來自同一個突觸的脈衝信息,神經元可以對不同時間輸入的信息進行整合,故神經元對信息有時間整合特性。

實際上,神經元之間信息的傳遞是一個數-模(digital to analog, D/A)、模-數(analog to digital, A/D)轉換的過程。從神經元軸突上傳遞的信息是等幅、恆寬、編碼的離散脈衝信號,可以看成是一個數字量信號。但在突觸中神經遞質的釋放和樹突中膜電位的變化是連續的模擬量,說明突觸具有 D/A 功能。在神經元細胞體的膜電位高於一定閾值時,則又變成電脈衝方式由軸突傳遞過去,這個過程說明神經元具有 A/D 功能。很明顯,信息通過一個神經元傳遞時,神經元對信息執行了 D/A、A/D的轉換過程。

二. 人工神經網絡的定義

人工神經網絡作爲人工智能的一個重要分支,採用廣泛互連的結構與有效的學習機制來模擬人腦信息處理的過程,是當前類腦智能研究中的有效工具。對人工神經網絡的研究,實現其功能重點需要解決兩方面的問題:

  1. 信息的編碼方式以及信息在網絡中從突觸前神經元到突觸後神經元的流動機制;
  2. 通過網絡結構和突觸權值的調整使得特定代價或誤差函數最小化的學習機制;

人工神經網絡從信息處理的角度對生物神經系統進行抽象,建立某種簡單模型,按不同的連接方式組成不同的網絡,在工程與學術界也常簡稱爲神經網絡。神經網絡是一種並行的運算模型,由大量的神經節點(或稱神經元)相互連接構成。每個節點代表一種特定的輸出函數,稱爲激活函數(activation function)。每兩個節點間的連接都代表通過該連接信號的加權值,稱爲連接權值(connection weight),這相當於人工神經網絡的記憶。遵照生物神經系統的結構特徵和突觸可塑性機制,設計人工神經網絡的計算結構和學習規則,使其具有自學習與自組織等智能行爲,能夠使機器具有一定程度上的智能水平。人工神經網絡模型的輸出根據網絡的連接方式、連接權值和激活函數的不同而不同,通常都是對自然界某種算法或者函數的逼近,也可能是對一種邏輯策略的表達。

基於現代神經科學的研究成果,構建的人工神經網絡即是高度非線性動力學系統,又是自適應信息處理系統,可用來描述認知、決策及控制的智能行爲,中心問題是智能的模擬和認識。人工神經網絡具有以下幾個基本特徵。

  1. 信息處理的高度並行性。從解剖學和生理學的角度來看,生物的神經系統是一個複雜的並行系統,它不同於傳統的馮諾依曼型體系結構的計算機。人工神經網絡的各組成部分同時參與運算,單個神經元的運算速度並不高,但總體的處理速度極快,是巨量信息並行處理和大規模並行計算的基礎。
  2. 具有複雜的非線性特徵。非線性關係是自然界的普遍特性,大腦的智慧就是一種非線性現象。構成人工神經網絡的神經元是一種非線性的處理單元,只有當神經元對所有輸入信號的整理結果超過某個閾值後才輸出一個信號。具有閾值特性的神經元構成的神經網絡具有更好的性能,可以提高容錯性和存儲容量。因此,人工神經網絡是一種具有複雜非線性特徵的超大規模連續時間動力學系統。
  3. 具有聯想記憶存儲功能。聯想記憶存儲是人腦的特有功能之一,如同出於仿生學的考慮一樣,如何在人工計算模型上實現該功能一直是人工智能領域的研究重點之一。在人工神經網絡中,知識與信息都等勢分佈存儲於整個網絡內的各神經元及其連接權值上,表現爲神經元之間分佈式的物理信息。神經網絡能接受和處理模擬的、混沌的、模糊的和隨機的信息,具有一定的聯繫記憶能力。在處理自然語言處理理解、模式識別、機器人控制,以及不完整信息等方面具有優勢。
  4. 具有自組織、自學習能力。人工神經網絡可以根據外界環境的輸入信息改變突觸連接強度,重新調整神經元之間的相互關係,從而達到自適應於環境變化的目的。人工神經網絡不但對處理的信息可以有多種變化,而且在處理信息的同時,非線性動力系統本身也在不斷變化,經常採用迭代過程描述動力系統的演化過程。因此,人工神經網絡具有自適應、自組織、自學習能力。
  5. 具有多平衡態的非凸性。一個系統 的演化方向在一定條件下將取決於某個特定的狀態函數。例如,能量函數的極值相對於系統具有比較穩定的狀態。非凸型是指這種函數有多個極值,故系統具有多個較穩定的平衡態,這將導致系統演化的多樣性。
  6. 具有魯棒性和容錯性。生物神經系統不會由於個別神經元的損失而失去對原有模式的記憶能力,在人工神經網絡中,每個神經元及其連接只表示一部分信息,而不是一個完整的具體概念。神經網絡信息處理的結果通過突觸連接強度的變化進行映射,神經網絡功能的實現只要求滿足部分條件,當個別神經元失效時,整個網絡仍能正常工作,人工神經網絡具有魯棒性和容錯性。

人工神經網絡是一種非程序化、適應性、具有大腦風格的信息處理模型,其本質是通過網絡結構和連接權值的變化和動力學行爲得到一種並行分佈式的信息處理能力,並在不同程度和層次上模仿人腦神經系統的信息處理能力。

三. 人工神經網絡的發展

近幾十年來,針對人工神經網絡的學術研究非常活躍,共提出上百種神經網絡模型,並涉及模式識別、聯想記憶、信號處理、自動控制、組合優化、故障診斷及計算機視覺等衆多應用領域,取得了引人注目的進展。雖然出現了很多人工神經網絡的計算模型,但從人工神經元對生物神經元的抽象建模過程和對神經信息的編碼機制來看,可將人工神經網絡模型分爲三代。

1. 第一代人工神經網絡

第一代神經網絡可以追溯到1943年美國神經心理學家McCulllch和數學家Pitts提出的MP模型,其輸出爲布爾邏輯變量。他們一方面歸納總結了生物神經元的基本特性,建立了具有邏輯演算功能的神經元模型以及由這些人工神經元互連形成的人工神經網絡,創建了第一個模擬生物神經系統的神經計算模型;另一方面,他們有關“適當的神經連接和神經元閾值使大腦內神經元的活動成爲被感知的外部世界的一切初始命題的有限邏輯集合”的深刻科學思想也成爲後來腦理論發展的基礎。

後來美國計算機科學家Rosenblatt提出感知器(perception)的概念,並用電路實現,用來模擬生物的感知和學習能力。之後又提出了感知器模型,它是一種多層的神經網絡,掀起了神經網絡研究的第一個高潮。隨着對感知器研究的逐漸深入,Minsky等從數學的角度分析了以簡單感知器爲代表的神經網絡系統的功能及其侷限性,在Perceptions一書中指出線性感知器功能是有限的,它僅能解決一階謂詞邏輯問題,不能解決如“異或”這樣的基本問題。同時,他們發現許多複雜的函數關係是無法通過單層網絡訓練得到的,至於多層網絡的可行性還值得懷疑。

單層感知器是一個具有輸入層和輸出層的前饋網絡,神經元採用閾值激活函數表示。通過對網絡權值的訓練,可以使感知器對一組輸入向量的響應達到0或者1的目標輸出,從而實現對輸出向量分類的目的。構成感知器的MP神經元模型如下圖所示,其中x1x2...xnx_{1}、x_{2}、...、x_{n}爲神經元的輸入向量XX的分量,w1w2...wnw_{1}、w_{2}、...、w_{n}是權重向量WW的分量。每一個輸入分量xix_{i}通過一個權重分量wiw_{i}進行加權求和,然後和閾值θ\theta進行比較,如果加權和大於等於閾值θ\theta,則感知器的輸出y爲1,否則感知器的輸出y爲0.
在這裏插入圖片描述
構成感知器的MP神經元模型的數學表達式可描述爲:
y=f(WXθ)={1, if WXθ0, if x=WX<θy=f(W\cdot X-\theta )=\begin{cases} 1, & \text{ if } W\cdot X\geq \theta \\ 0, & \text{ if } x= W\cdot X< \theta \end{cases}

上面的式子中,θ\theta爲神經元的激活閾值或偏置量,是一個不依賴於任何輸入值的常數,偏置量可以認爲是激活函數的偏移量,或者給神經元的一個基礎活躍等級,ff爲激活函數或者轉移函數,在這裏爲Sign函數。

2. 第二代神經網絡

第二代人工神經網絡使用連續函數(如Sigmoid函數或者分段線性函數等)作爲神經元的激活函數,以實現系統對實數值輸入輸出的處理。從神經信息編碼的角度來看,神經元處理的實數值表示脈衝發放的頻率。1982年,美國加州理工學院的物理學家Hopfield對神經網絡的動態特性進行了研究,引入了能量函數的概念,給出了網絡的穩定性判別依據,建立了一種新的模擬生物神經系統的遞歸神經計算模型,即著名的Hopfield神經網絡模型,成功求解了NP完全型的旅行商問題。Hopfield網絡具有生物神經系統的聯想記憶能力,模擬腦的記憶和學習,可用於模式識別和優化計算。Hopfield網絡標誌着人類在神經細胞水平上模擬腦功能的研究方面取得了歷史性的重大突破。

爲了模擬生物神經元的局部響應特性,Broomhad將徑向基函數(radial basis function)引入神經網絡的設計與建模中,形成了徑向基函數神經網絡。此外,Jackson和Park等分別對徑向基函數神經網絡在非線性連續函數上的一致逼近性能進行了分析和論證。隨着研究的深入,神經網路與機器學習進一步融合,特別是Cortes等於1995年首先提出的支持向量機(Support vector machine,SVM)模型,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,並能夠推廣應用到函數擬合等其他機器學習問題中。

三. 第三代神經網絡

然而,與生物神經網絡中的信息處理相比,傳統的人工神經網絡面臨着固有的侷限性,主要表現在兩個方面:

  1. 傳統人工神經網絡的神經元模型過於簡單,無論是MP模型還是連續激活函數表示的神經元模型,都不能很好地實現生物神經元的膜電位變化和脈衝發放過程的逼真模擬;
  2. 傳統人工神經網絡模型描述中均未直接使用單個脈衝的時間信息,其輸出值爲模擬量,可看作是神經元脈衝發放頻率的一個規格化描述,這種情況通常稱爲神經元信號的頻率編碼(rate coding),頻率編碼僅是神經信息的一種近似表示。

頻率編碼意味着一種時間平均的機制,只有在一個時間窗口內對神經元發放的脈衝個數求均值,才能得到脈衝的發放頻率。但是近年來的一些研究表明,在生物系統中頻率編碼的方法很多時候並不適用。研究者發現,大腦皮層中的神經元能夠以令人難以置信的速度進行信息傳遞,頻率編碼的假設明顯與皮層神經元的高速運算不符。

神經科學的一些實驗證據表明,視覺、聽覺等許多生物神經系統都採用神經元發放的動作電位(即脈衝)的時間來編碼信息。針對這些問題,更加符合生物神經系統實際情況的第三代人工神經網絡模型——脈衝神經網絡模型應運而生。脈衝神經網絡使用時間編碼(temporal coding)方式進行信息傳遞與處理,直接利用神經元的脈衝發放時間作爲網絡模型的輸入與輸出,因而相對於第一代和第二代人工神經網絡能更接近地描述實際生物神經系統,從而實現信息的高效處理。

近些年來,關於脈衝神經網絡的研究取得了一系列進展,Maass等證明了脈衝神經網絡能夠模擬任意的前向Sigmoid神經網絡,從而實現任意連續函數的逼近。而理論研究已經表明,傳遞脈衝序列時域信息的脈衝神經網絡的計算能力要強於一般使用Sigmoid爲激活函數的神經網絡模型。並且,脈衝神經網絡採用離散的脈衝序列來代替模擬量來傳遞信息,更適合網絡的硬件實現與處理。

參考:脈衝神經網絡原理及應用

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章