神經網絡的雛形:從M-P模型到感知機

1 序

1943年,心理學家McCulloch和數學家Pitts建立起了著名的閾值加權和模型,簡稱爲M-P模型,其拓撲結構便是現代神經網絡中的一個神經元,發表於數學生物物理學會刊《Bulletin of Methematical Biophysics》。1957年,以Marvin Minsky,Frank Rosenblatt,Bernard Widrow等爲代表人物發表了感知機模型,並提出學習的概念,被稱爲最早的神經網絡。

本文主要介紹M-P模型與感知機的區別與聯繫,以及感知機與現代神經網絡的區別與聯繫,從而對幾十年來人工神經網絡的發展脈絡有一個感性的認識以便更好地理解神經網絡。

2 M-P模型

前面說了M-P模型便是現代神經網絡的一個神經元,其結構十分簡單,如圖1所示

圖1.B-P模型

其數學表達式爲: Oj=f(i=1nwixi+b)O_j=f(\sum_{i=1}^nw_ix_i+b)
ff爲激活函數,這兒使用階躍函數,大於0時取1,小於等於0時取0。可以看出M-P模型就是一個加權求和再激活的過程,能夠完成線性可分的分類問題。
需要注意的一點時,M-P模型的權值 WW 和偏置 bb 都是人爲給定的,所以對此模型不存在"學習"的說法。這也是M-P模型與單層感知機最大的區別,感知機中引入了學習的概念,權值 WW 和偏置 bb 是通過學習得來。

3 感知機

3.1 單層感知機

從結構上說,單層感知機就是多個M-P模型的累疊,模型結構如圖2。前面也說到了,最主要的差別還是在於感知機引入了學習概念,這也是爲什麼把感知機稱爲最初的神經網絡模型而非M-P模型。

圖2.單層感知機模型

 
單層感知機的學習通過導入基於誤分類的損失函數,利用梯度下降法對損失函數進行極小化(注意,1957年BP反向傳播算法還未提出,所以只能訓練一層網絡)。在結構上單層感知機和M-P模型沒有太大區別,所以也只能劃分線性可分問題,並不能解決異或之類的線性不可分問題,如圖3

圖3.異或不可分

3.2 多層感知機

爲了解決線性不可分問題,提出了多層感知機(基本都是兩層,因爲BP算法提出之前只能訓練一層網絡)。因爲只能訓練一層網絡,所以多層感知機其中一層是固定權值的,能夠解決非線性問題,如圖4.

圖4.雙層感知機解決異或問題

4 總結

M-P模型就是現在的一個神經元結構,但是沒有參數學習的過程,單層感知機引入損失函數,並提出了學習的概念,多層感知機通過增加層數解決非線性問題,但是需要人爲固定一層參數,只能訓練其中一層。直到1986年Hinton提出了反向傳播算法,使得訓練多層網絡成爲可能。在GPU並行運算能力的大力發展下,網絡的層數得以不斷增加,新的網絡模型也越來越多,感知機也逐漸退出了歷史舞臺,但瞭解一個領域的發展歷史對理解這個領域還是很有用的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章