本文參考:https://blog.csdn.net/u013733326/article/details/79639509
進入研究生階段後,首先意識到的是需要儘快對神經網絡進行熟悉與學習,於是參加了網易雲課堂吳恩達老師發佈的一系列課程,並跟隨課程完成課後作業,並進行簡單理解與記錄。需要注意的是,本文是在參考文基礎上,進行簡單總結與理解,若需要參考算法具體的分析,可查看本文所參考的文章。
第二週編程作業課題爲完成一個能夠識別貓的簡單神經網絡[logistic迴歸的應用],作爲神經網絡的入門題,該課題甚至可以認爲不涉及到隱藏層,而只是根據輸入的特徵,輸出是否爲貓的0/1預測結果。
(1)輸入數據的處理
首先,輸入的值,對於每一個測試樣例,即爲當前輸入的圖像數據,根據lr_util.py的返回值,可以確定的是,爲圖像的RGB信息,而圖像的大小爲。以train_set_x_orig爲例,假設將獲得的該訓練集的數量爲m,則其維度爲。而根據吳恩達老師的課程,可以知道的是,爲了儘可能保證的計算速度,通常需要進行兩次向量化:某個測試樣例或者訓練樣例輸入元素層面的向量化,以及所有樣例層面的向量化(參考2.11-2.14課程):
1)首先完成第一個層面的向量化:將數組重新構造成的數組;
2)其次完成第二個層面的向量化:將根據第一個層面向量化的結果哦,壓縮成數組;
以上步驟,完成的即是吳恩達老師課程中所提到的從到的向量化過程。
train_set_x_orig, train_set_y, test_set_x_orig, test_set_y, classes=load_dataset()
m_train = train_set_y.shape[1]
m_test = test_set_y.shape[1]
num_px = train_set_x_orig.shape[1]
train_set_x_flatten = train_set_x_orig.reshape(train_set_x_orig.shape[0],-1).T
test_set_x_flatten = test_set_x_orig.reshape(test_set_x_orig.shape[0],-1).T
train_set_x = train_set_x_flatten / 255
test_set_x = test_set_x_flatten / 255
(2)神經網絡的構造
首先,構造Logistic迴歸函數,公式爲最簡單的,對於該預測公式,首先對進行初始化,確定一個初始值,繼而可根據訓練值,通過梯度下降法,逐漸調整參數 ,獲得最終相對合理的的值。在此過程中,主要分爲兩個步驟:
1)公式構造及的初始化
def initialize_with_zeros(dim):
w = np.zeros(shape = (dim, 1))
b = 0
assert(w.shape == (dim, 1))
assert(isinstance(b, float) or isinstance(b, int))
return(w, b)
def sigmoind(z):
s = 1/(1+np.exp(-z))
return s
2)梯度下降法:該過程詳情可見吳恩達老師2.4節課件,其中涉及的主要公式爲
# 成本及梯度
def propagate(w,b,X,Y):
m = X.shape[1]
A = sigmoind(np.dot(w.T, X) + b)
cost = (-1/m) * np.sum(Y * np.log(A) + (1-Y) * (np.log(1 - A)))
dw = (1/m)*np.dot(X,(A-Y).T)
db = (1/m)*np.sum(A-Y)
assert(dw.shape == w.shape)
assert(db.dtype == float)
cost = np.squeeze(cost)
assert(cost.shape == ())
grads = {
"dw":dw,
"db":db
}
return(grads,cost)
# 運行梯度下降算法優化w和b
def optimize(w,b,X,Y,num_iterations,learning_rate,print_cost=False):
costs = []
for i in range(num_iterations):
grads,cost = propagate(w,b,X,Y)
dw = grads["dw"]
db = grads["db"]
w = w - learning_rate * dw
b = b - learning_rate * db
if i%100 == 0:
costs.append(cost)
if(print_cost) and (i % 100 == 0):
print("迭代的次數: %i , 誤差值: %f" % (i, cost))
params = {
"w" : w,
"b" : b
}
grads = {
"dw" : dw,
"db" : db
}
return(params,grads,costs)
3)計算誤差:該過程主要涉及公式爲
(3)神經網絡的使用
利用構造好的神經網絡,對測試集進行測試,可獲得每張圖片的識別誤差。
# 使用logistic函數預測標籤
def predict(w,b,X):
m = X.shape[1]
Y_prediction = np.zeros((1,m))
w = w.reshape(X.shape[0],1)
A = sigmoind(np.dot(w.T, X) + b)
for i in range(A.shape[1]):
Y_prediction[0,i] = 1 if A[0,i] > 0.5 else 0
assert(Y_prediction.shape == (1,m))
return Y_prediction