cs231n 計算機視覺(學習筆記1-3)

1.1 學習深度學習可以刷斯坦福大學視頻

cs231n:計算機視覺概述

cs131:深度學習與自然語言

cs231a:較爲全面,3D建模

1.2 計算機發展歷程與cs231n課程整體概況

眼睛進化->機器加入視覺->機器學習->深度學習

1.3 課程背景

從圖像分類出發,Image比賽尤爲值得關注。

AlexNet(7層)->VGG(19層)->殘差(152層),網絡結構層次越來越多,準確率越來越好。

CNN於2012年取得突破,對於CNN之後將重點講述,並講解算法深層架構理解,如何實現以及訓練完成。

http://cs231n.standford.edu/

2.1 圖像分類&數據驅動方法(python+Numpy)

圖像分類:計算機視覺真正核心的任務以及當前研究重點

語義鴻溝:你看到的圖片和計算機看到的陣列,例如800*600*3(RGB三通道)

挑戰:背景模糊、物體形變、遮擋。。。

已經實現的:計算邊緣->寫一些規則識別(不易實現)

如今的步驟:抓取一些有標籤的圖片數據集->用機器學習(訓練、預測函數)去訓練分類->評估用於新圖像的分類

實現K-近鄰以及線性分類器SVM和softmax

自己設計兩層神經網絡並實現

常見數據集( 圖像類):

1、MNIST:鏈接 http://yann.lecun.com/exdb/mnist/

描述:手寫數字識別,深度學習入門級數據集。包含60000個訓練數據及10000個測試數據,可分爲10類

2、MS-COCO:鏈接 http://cocodataset.org/#home

描述:各個論文中常用數據集之一,可用於圖像分割,邊緣檢測,關鍵點檢測及圖像捕獲

3、ImageNet:鏈接 http://www.image-net.org/

描述:最有名的圖像數據集之一,目前比較常用的模型如VGG、Inception、Resnet都是基於它訓練的。

4、Open Image Dataset:鏈接 https://github.com/openimages/dataset#download-the-data

描述:一個包含近900萬個圖像URL的數據集。 這些圖像擁有數千個類別及邊框進行了註釋。 該數據集包含9,011219張圖像的訓練集,41,260張圖像的驗證集以及125,436張圖像的測試集。

5、VisualQA:鏈接 http://www.visualqa.org/

描述:關於圖像的問答系統數據集

6、The Street View House Numbers(SVHN):鏈接 http://ufldl.stanford.edu/housenumbers/

描述:門牌號數據集,可用來做物體檢測與識別

7、CIFAR-10:鏈接 http://www.cs.toronto.edu/~kriz/cifar.html

描述:有名的圖像識別數據集,包含 50000張訓練數據,10000張測試數據,可分爲10類

8、Fashion-MNIST:鏈接 https://github.com/zalandoresearch/fashion-mnist

描述: 包含60000訓練樣本和10000測試樣本的用於服飾識別的數據集,可分爲10類

#最近鄰分類器的完整代碼
import numpy as np
class NearestNeighbor:
    def _init_(self):
        pass

    def train(self,X,y)
        self.Xtr = X
        self.ytr = y
    def predict(self,X):
        num_test = X.shape[0]
        Ypred = np.zeros(num_test,dype = self.ytr.dtype)
        for i in xrange(num_test):
            distances = np.sum(np.abs(self.Xtr-X[i:]),axis=1)#L1距離
            min_index = np.argmin(distances)
            Ypred[i] = self.ytr[min_index]
        return Yread

2.2 K-近鄰&KNN

L1距離  曼哈頓距離   求絕對值之和

L2距離  歐式距離   求平方和的平方根

訓練集+測試集+驗證集

監督學習(貼有標籤)

KNN:不適合圖像之間視覺感知的差異、維度問題

2.3 線性分類

f(x,w)=w_{x}+b

線性分類器+多分類。。。

3.1 損失函數和優化損失函數

度量損失函數

softmax->轉化_->log p

歸一化:標準化+中心化

正則化->過擬合->測試數據

3.2 優化

概念:最優化->隨機搜索

斜率->導數->梯度(負)

超參數:學習率/步長、誤差函數、損失誤差、梯度下降法、圖像特徵

分類器:原始像素載入SVM進行分類

深度學習:特徵表述 傳入SVM 特徵轉換

負梯度方向->最小損失

正則化:減輕模型複雜度,不是去試圖擬合數據

多類別分類SVM

歐式範數

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章