吳恩達 [deeplearning.ai 神經網絡和深度學習] 第二週編程作業總結

原創

2020-06-17 16:25

本文參考：https://blog.csdn.net/u013733326/article/details/79639509

進入研究生階段後，首先意識到的是需要儘快對神經網絡進行熟悉與學習，於是參加了網易雲課堂吳恩達老師發佈的一系列課程，並跟隨課程完成課後作業，並進行簡單理解與記錄。需要注意的是，本文是在參考文基礎上，進行簡單總結與理解，若需要參考算法具體的分析，可查看本文所參考的文章。

第二週編程作業課題爲完成一個能夠識別貓的簡單神經網絡[logistic迴歸的應用]，作爲神經網絡的入門題，該課題甚至可以認爲不涉及到隱藏層，而只是根據輸入的特徵，輸出是否爲貓的0/1預測結果。

（1）輸入數據的處理

首先，輸入的值，對於每一個測試樣例，即爲當前輸入的圖像數據，根據lr_util.py的返回值，可以確定的是，爲圖像的RGB信息，而圖像的大小爲。以train_set_x_orig爲例，假設將獲得的該訓練集的數量爲m，則其維度爲 $\left ( m,64,64,3 \right )$ 。而根據吳恩達老師的課程，可以知道的是，爲了儘可能保證的計算速度，通常需要進行兩次向量化：某個測試樣例或者訓練樣例輸入元素層面的向量化，以及所有樣例層面的向量化（參考2.11-2.14課程）：

1）首先完成第一個層面的向量化：將 $\left ( 64,64,3 \right )$ 數組重新構造成 $\left ( 64*64*3,1 \right )$ 的數組；

2）其次完成第二個層面的向量化：將 $\left ( m,64,64,3 \right )$ 根據第一個層面向量化的結果哦，壓縮成 $\left ( 64*3*3,m \right )$ 數組；

以上步驟，完成的即是吳恩達老師課程中所提到的從 $x_{1}^{[1]}...x_{m}^{[n]}$ 到的向量化過程。

    train_set_x_orig, train_set_y, test_set_x_orig, test_set_y, classes=load_dataset()


    m_train = train_set_y.shape[1]
    m_test = test_set_y.shape[1]
    num_px = train_set_x_orig.shape[1]

    train_set_x_flatten = train_set_x_orig.reshape(train_set_x_orig.shape[0],-1).T
    test_set_x_flatten = test_set_x_orig.reshape(test_set_x_orig.shape[0],-1).T
    train_set_x = train_set_x_flatten / 255
    test_set_x = test_set_x_flatten / 255

（2）神經網絡的構造

首先，構造Logistic迴歸函數，公式爲最簡單的 $y=sigmoid(z), z=\omega x+b$ ，對於該預測公式，首先對 $\omega ,b$ 進行初始化，確定一個初始值，繼而可根據訓練值，通過梯度下降法，逐漸調整參數 $\omega ,b$ ，獲得最終相對合理的 $\omega ,b$ 的值。在此過程中，主要分爲兩個步驟：

1）公式構造及 $\omega ,b$ 的初始化

def initialize_with_zeros(dim):
    w = np.zeros(shape = (dim, 1))
    b = 0
    assert(w.shape == (dim, 1))
    assert(isinstance(b, float) or isinstance(b, int))
    return(w, b)

def sigmoind(z):
    s = 1/(1+np.exp(-z))
    return s

2）梯度下降法：該過程詳情可見吳恩達老師2.4節課件，其中涉及的主要公式爲

$d\omega =\frac{1}{m}XdZ^{T}$

$db=\frac{1}{m}np.sum(dZ)$

$\omega :=\omega-\alpha d\omega$

$b:=b-\alpha db$

# 成本及梯度
def propagate(w,b,X,Y):
    m = X.shape[1]
    A = sigmoind(np.dot(w.T, X) + b)
    cost = (-1/m) * np.sum(Y * np.log(A) + (1-Y) * (np.log(1 - A)))

    dw = (1/m)*np.dot(X,(A-Y).T)
    db = (1/m)*np.sum(A-Y)

    assert(dw.shape == w.shape)
    assert(db.dtype == float)
    cost = np.squeeze(cost)
    assert(cost.shape == ())

    grads = {
        "dw":dw,
        "db":db
    }
    return(grads,cost)

# 運行梯度下降算法優化w和b
def optimize(w,b,X,Y,num_iterations,learning_rate,print_cost=False):
    costs = []
    for i in range(num_iterations):
        grads,cost = propagate(w,b,X,Y)
        dw = grads["dw"]
        db = grads["db"]

        w = w - learning_rate * dw
        b = b - learning_rate * db

        if i%100 == 0:
            costs.append(cost)
        if(print_cost) and (i % 100 == 0):
            print("迭代的次數: %i ， 誤差值： %f" % (i, cost))

        params = {
            "w" : w,
            "b" : b
        }
        grads = {
            "dw" : dw,
            "db" : db
        }
    return(params,grads,costs)

3)計算誤差：該過程主要涉及公式爲

$cost =-\frac{1}{m}*np.sum(Y*np.log(A)+(1-Y)*(np.log(1-A)))$

（3）神經網絡的使用

利用構造好的神經網絡，對測試集進行測試，可獲得每張圖片的識別誤差。

# 使用logistic函數預測標籤
def predict(w,b,X):
    m = X.shape[1]
    Y_prediction = np.zeros((1,m))
    w = w.reshape(X.shape[0],1)

    A = sigmoind(np.dot(w.T, X) + b)
    for i in range(A.shape[1]):
        Y_prediction[0,i] = 1 if A[0,i] > 0.5 else 0
    assert(Y_prediction.shape == (1,m))

    return Y_prediction

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

吳恩達 [deeplearning.ai 神經網絡和深度學習] 第二週編程作業總結

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

吳恩達 [deeplearning.ai 神經網絡和深度學習] 第二週編程作業總結

Dlib使用及碰到的問題總結

SeetaFace使用（問題）

安卓端微信第三方登陸與服務器端的根據CODE獲取微信用戶信息

安卓 OpenGLES 魔方

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結