1.1 學習深度學習可以刷斯坦福大學視頻
cs231n:計算機視覺概述
cs131:深度學習與自然語言
cs231a:較爲全面,3D建模
1.2 計算機發展歷程與cs231n課程整體概況
眼睛進化->機器加入視覺->機器學習->深度學習
1.3 課程背景
從圖像分類出發,Image比賽尤爲值得關注。
AlexNet(7層)->VGG(19層)->殘差(152層),網絡結構層次越來越多,準確率越來越好。
CNN於2012年取得突破,對於CNN之後將重點講述,並講解算法深層架構理解,如何實現以及訓練完成。
http://cs231n.standford.edu/
2.1 圖像分類&數據驅動方法(python+Numpy)
圖像分類:計算機視覺真正核心的任務以及當前研究重點
語義鴻溝:你看到的圖片和計算機看到的陣列,例如800*600*3(RGB三通道)
挑戰:背景模糊、物體形變、遮擋。。。
已經實現的:計算邊緣->寫一些規則識別(不易實現)
如今的步驟:抓取一些有標籤的圖片數據集->用機器學習(訓練、預測函數)去訓練分類->評估用於新圖像的分類
實現K-近鄰以及線性分類器SVM和softmax
自己設計兩層神經網絡並實現
常見數據集( 圖像類):
1、MNIST:鏈接 http://yann.lecun.com/exdb/mnist/
描述:手寫數字識別,深度學習入門級數據集。包含60000個訓練數據及10000個測試數據,可分爲10類
2、MS-COCO:鏈接 http://cocodataset.org/#home
描述:各個論文中常用數據集之一,可用於圖像分割,邊緣檢測,關鍵點檢測及圖像捕獲
3、ImageNet:鏈接 http://www.image-net.org/
描述:最有名的圖像數據集之一,目前比較常用的模型如VGG、Inception、Resnet都是基於它訓練的。
4、Open Image Dataset:鏈接 https://github.com/openimages/dataset#download-the-data
描述:一個包含近900萬個圖像URL的數據集。 這些圖像擁有數千個類別及邊框進行了註釋。 該數據集包含9,011219張圖像的訓練集,41,260張圖像的驗證集以及125,436張圖像的測試集。
5、VisualQA:鏈接 http://www.visualqa.org/
描述:關於圖像的問答系統數據集
6、The Street View House Numbers(SVHN):鏈接 http://ufldl.stanford.edu/housenumbers/
描述:門牌號數據集,可用來做物體檢測與識別
7、CIFAR-10:鏈接 http://www.cs.toronto.edu/~kriz/cifar.html
描述:有名的圖像識別數據集,包含 50000張訓練數據,10000張測試數據,可分爲10類
8、Fashion-MNIST:鏈接 https://github.com/zalandoresearch/fashion-mnist
描述: 包含60000訓練樣本和10000測試樣本的用於服飾識別的數據集,可分爲10類
#最近鄰分類器的完整代碼
import numpy as np
class NearestNeighbor:
def _init_(self):
pass
def train(self,X,y)
self.Xtr = X
self.ytr = y
def predict(self,X):
num_test = X.shape[0]
Ypred = np.zeros(num_test,dype = self.ytr.dtype)
for i in xrange(num_test):
distances = np.sum(np.abs(self.Xtr-X[i:]),axis=1)#L1距離
min_index = np.argmin(distances)
Ypred[i] = self.ytr[min_index]
return Yread
2.2 K-近鄰&KNN
L1距離 曼哈頓距離 求絕對值之和
L2距離 歐式距離 求平方和的平方根
訓練集+測試集+驗證集
監督學習(貼有標籤)
KNN:不適合圖像之間視覺感知的差異、維度問題
2.3 線性分類
線性分類器+多分類。。。
3.1 損失函數和優化損失函數
度量損失函數
softmax->轉化_->log p
歸一化:標準化+中心化
正則化->過擬合->測試數據
3.2 優化
概念:最優化->隨機搜索
斜率->導數->梯度(負)
超參數:學習率/步長、誤差函數、損失誤差、梯度下降法、圖像特徵
分類器:原始像素載入SVM進行分類
深度學習:特徵表述 傳入SVM 特徵轉換
負梯度方向->最小損失
正則化:減輕模型複雜度,不是去試圖擬合數據
多類別分類SVM
歐式範數