深度學習入門（3）

1.卷積層（Convolutional）
1）填充(padding)
在進行卷積層的處理之前，有時要向輸入數據的周圍填入固定的數據（比如0），這稱爲填充。
使用填充主要是爲了調整輸出的大小。

2）步幅
應用濾波器(filter)的位置間隔稱爲步幅(stride)。
輸出大小的計算：
假設輸入大小爲（H,W）,濾波器大小爲（FH,FW),輸出大小爲（OH,OW），填充爲P,步幅爲S(橫縱軸都爲S),則：

OH = (H+2P-FH)/S +1 
OW = (W+2P-FW)/S +1

tensorflow中：

padding = valid

OH = (H-FH)/S +1
OW = (W-FW)/S +1

padding = same

OH = H/S
OW = W/S

具體是怎麼加padding的呢？

pad_H = max((OH-1)*S + FH - H ,0)
pad_W = max((OW-1)*S + FW - W ,0)

pad_top = pad_H/2
pad_bottom = pad_H - pad_top

pad_left = pad_W/2
pad_right = pad_W - pad_left

3）三維卷積運算
濾波器的通道數只能設定爲和輸入數據的通道數相同的值。
(C,H,W) * (C,FH,FW) ----> (1,OH,OW)
輸入數據卷積運算過濾器輸出數據

N個卷積核（過濾器）
(C,H,W) * (FN,C,FH,FW) ----> (FN,OH,OW) + (FN,1,1) ----> (FN,OH,OW)
輸入數據卷積運算過濾器偏置輸出數據
批處理
(N,C,H,W) * (FN,C,FH,FW) ----> (N,FN,OH,OW) + (FN,1,1) ----> (N,FN,OH,OW)
輸入數據卷積運算過濾器偏置輸出數據

實現：

class Convolution:
    def __init__(self, W, b, stride=1, pad=0):
        self.W = W
        self.b = b
        self.stride = stride
        self.pad = pad
        self.x = None   
        self.col = None
        self.col_W = None
        self.dW = None
        self.db = None

    def forward(self, x):
        FN, C, FH, FW = self.W.shape
        N, C, H, W = x.shape
        out_h = 1 + int((H + 2*self.pad - FH) / self.stride)
        out_w = 1 + int((W + 2*self.pad - FW) / self.stride)

        col = im2col(x, FH, FW, self.stride, self.pad)
        col_W = self.W.reshape(FN, -1).T

        out = np.dot(col, col_W) + self.b
        out = out.reshape(N, out_h, out_w, -1).transpose(0, 3, 1, 2)

        self.x = x
        self.col = col
        self.col_W = col_W

        return out

    def backward(self, dout):
        FN, C, FH, FW = self.W.shape
        dout = dout.transpose(0,2,3,1).reshape(-1, FN)

        self.db = np.sum(dout, axis=0)
        self.dW = np.dot(self.col.T, dout)
        self.dW = self.dW.transpose(1, 0).reshape(FN, C, FH, FW)

        dcol = np.dot(dout, self.col_W.T)
        dx = col2im(dcol, self.x.shape, FH, FW, self.stride, self.pad)

        return dx

2.池化層（Pooling）
特徵：

1） 沒有要學習的參數
2） 通道數不發生變化
3） 對微小的位置變化具有魯棒性

實現：

class Pooling:
    def __init__(self, pool_h, pool_w, stride=1, pad=0):
        self.pool_h = pool_h
        self.pool_w = pool_w
        self.stride = stride
        self.pad = pad
        
        self.x = None
        self.arg_max = None

    def forward(self, x):
        N, C, H, W = x.shape
        out_h = int(1 + (H - self.pool_h) / self.stride)
        out_w = int(1 + (W - self.pool_w) / self.stride)

        col = im2col(x, self.pool_h, self.pool_w, self.stride, self.pad)
        col = col.reshape(-1, self.pool_h*self.pool_w)

        arg_max = np.argmax(col, axis=1)
        out = np.max(col, axis=1)
        out = out.reshape(N, out_h, out_w, C).transpose(0, 3, 1, 2)

        self.x = x
        self.arg_max = arg_max

        return out

    def backward(self, dout):
        dout = dout.transpose(0, 2, 3, 1)
        
        pool_size = self.pool_h * self.pool_w
        dmax = np.zeros((dout.size, pool_size))
        dmax[np.arange(self.arg_max.size), self.arg_max.flatten()] = dout.flatten()
        dmax = dmax.reshape(dout.shape + (pool_size,)) 
        
        dcol = dmax.reshape(dmax.shape[0] * dmax.shape[1] * dmax.shape[2], -1)
        dx = col2im(dcol, self.x.shape, self.pool_h, self.pool_w, self.stride, self.pad)
        
        return dx

3.具有代表性的CNN
Lenet,AlexNet

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深度學習入門（3）

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

java由於越界導致的報錯

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 311: ordinal not in range(128)

一系列點畫框（不規則框）

nfs方式訪問海思3516

onnx,caffe模型查看各層的內容

android 交叉編譯dbow3

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結