啥事深度學習
在人工智能領域,有一個方法叫做機器學習。在機器學習這個方法裏,有一類算法叫做神經網絡。
神經網絡:
上圖中每個圓圈都是一個神經元,每條線表示神經元之間的鏈接。我們可以看到,上面神經元被分了很多層,層與層之間的神經元是有鏈接的,而層內的神經元是沒有鏈接的。最左邊的層叫做輸入層,這層負責接收輸入數據;最右邊的層叫輸出層,我們可以從這層獲取神經網絡的輸出數據。輸入層和輸出層之間的叫做隱藏層。
隱藏層比較多(大於2)的神經網絡叫做深度神經網絡。而深度學習,就是使用深層交媾(比如,深層神經網絡)的機器學習。
那麼申城網絡和淺層網可以相比有什麼優勢呢?簡單來說深層網絡能夠表達力更強。事實上,一個僅有一個隱藏層的神經網絡就能擬合任何同樣的函數。也就是說爲了擬合一個函數,要麼使用一個淺而寬的網絡,要麼使用一個深而窄的網絡。而後者往往更節約資源。
感知器
爲了理解神經網絡,我們應該先理解神經網絡的組成單元-神經元。神經元又叫感知器。感知器算法在上個世紀50-70年代很流行,也成功解決了很多問題。並且,感知器算法也很簡單。
感知器定義
可以看到,一個感知器有如下組成成分:
例如:
用感知器實現and函數
我們設計個感知器,讓他來實現and運算。程序猿都知道,and是個二元函數,下面是它的真值表:
爲了方便計算,0代表false,1代表true。
也就是當x1,x2都爲0的時候,y爲0,這就是真值表的第一行。
用感知器實現or函數
同樣的,我們也可以使用感知器進行or函數計算。僅僅需要把偏置項設置爲-0.3就可以了。
感知器還能做什麼?
事實上,感知器不僅僅能實現簡單的布爾運算。他可以擬合任何的線性函數,任何線性分類或線性迴歸問題都可以用感知器來解決。前面的布爾運算可以看做是二分類問題,即給定一個輸入,輸出0(屬於分類0)或1(屬於分類1)。如下圖所示,and運算是一個線性分類問題,即可以用一條直線把分類0(false,紅叉表示)和分類1(true,綠點表示)分開。
然而,感知器卻不能實現異或運算,異或運算不是線性的,無法用一條直線把分類0和分類1分開。
感知器的訓練
現在,你可能困惑前面的權重和偏置項的值是怎麼獲取的?這就要用到感知器訓練算法:將權重和偏置項初始化爲0,然後,利用下面的感知器規則迭代的修改權重和偏置項,知道訓練完成。
每次從訓練數據中取出一個樣本的輸入向量x,使用感知器計算其輸出y,再根據上面的規則來調整權重。每處理一個樣本就調整一次權重。經過多輪迭代後(即全部的訓練數據被反覆處理多倫),就可以訓練感知器的權重,使之實現目標函數。
編程實戰:實現感知器
完整代碼請參考GitHub
https://github.com/hanbt/learn_dl/blob/master/perceptron.py (python2.7)
下面是感知器類的實現,非常簡單。去掉註釋只有27行,而且還包括爲了美觀(每行不超過60個字符)而增加的很多換行。
class Perceptron(object):
def __init__(self, input_num, activator):
'''
初始化感知器,設置輸入參數的個數,以及激活函數。
激活函數的類型爲double -> double
'''
self.activator = activator
# 權重向量初始化爲0
self.weights = [0.0 for _ in range(input_num)]
# 偏置項初始化爲0
self.bias = 0.0
def __str__(self):
'''
打印學習到的權重、偏置項
'''
return 'weights\t:%s\nbias\t:%f\n' % (self.weights, self.bias)
def predict(self, input_vec):
'''
輸入向量,輸出感知器的計算結果
'''
# 把input_vec[x1,x2,x3...]和weights[w1,w2,w3,...]打包在一起
# 變成[(x1,w1),(x2,w2),(x3,w3),...]
# 然後利用map函數計算[x1*w1, x2*w2, x3*w3]
# 最後利用reduce求和
return self.activator(
reduce(lambda a, b: a + b,
map(lambda (x, w): x * w,
zip(input_vec, self.weights))
, 0.0) + self.bias)
def train(self, input_vecs, labels, iteration, rate):
'''
輸入訓練數據:一組向量、與每個向量對應的label;以及訓練輪數、學習率
'''
for i in range(iteration):
self._one_iteration(input_vecs, labels, rate)
def _one_iteration(self, input_vecs, labels, rate):
'''
一次迭代,把所有的訓練數據過一遍
'''
# 把輸入和輸出打包在一起,成爲樣本的列表[(input_vec, label), ...]
# 而每個訓練樣本是(input_vec, label)
samples = zip(input_vecs, labels)
# 對每個樣本,按照感知器規則更新權重
for (input_vec, label) in samples:
# 計算感知器在當前權重下的輸出
output = self.predict(input_vec)
# 更新權重
self._update_weights(input_vec, output, label, rate)
def _update_weights(self, input_vec, output, label, rate):
'''
按照感知器規則更新權重
'''
# 把input_vec[x1,x2,x3,...]和weights[w1,w2,w3,...]打包在一起
# 變成[(x1,w1),(x2,w2),(x3,w3),...]
# 然後利用感知器規則更新權重
delta = label - output
self.weights = map(
lambda (x, w): w + rate * delta * x,
zip(input_vec, self.weights))
# 更新bias
self.bias += rate * delta
接下來,我們利用這個感知器類去實現and函數。
def f(x):
'''
定義激活函數f
'''
return 1 if x > 0 else 0
def get_training_dataset():
'''
基於and真值表構建訓練數據
'''
# 構建訓練數據
# 輸入向量列表
input_vecs = [[1,1], [0,0], [1,0], [0,1]]
# 期望的輸出列表,注意要與輸入一一對應
# [1,1] -> 1, [0,0] -> 0, [1,0] -> 0, [0,1] -> 0
labels = [1, 0, 0, 0]
return input_vecs, labels
def train_and_perceptron():
'''
使用and真值表訓練感知器
'''
# 創建感知器,輸入參數個數爲2(因爲and是二元函數),激活函數爲f
p = Perceptron(2, f)
# 訓練,迭代10輪, 學習速率爲0.1
input_vecs, labels = get_training_dataset()
p.train(input_vecs, labels, 10, 0.1)
#返回訓練好的感知器
return p
if __name__ == '__main__':
# 訓練and感知器
and_perception = train_and_perceptron()
# 打印訓練獲得的權重
print and_perception
# 測試
print '1 and 1 = %d' % and_perception.predict([1, 1])
print '0 and 0 = %d' % and_perception.predict([0, 0])
print '1 and 0 = %d' % and_perception.predict([1, 0])
print '0 and 1 = %d' % and_perception.predict([0, 1])