cs231n 計算機視覺（學習筆記1-3）

原創

竹篓有个天

2020-06-21 10:54

1.1 學習深度學習可以刷斯坦福大學視頻

cs231n：計算機視覺概述

cs131：深度學習與自然語言

cs231a:較爲全面，3D建模

1.2 計算機發展歷程與cs231n課程整體概況

眼睛進化->機器加入視覺->機器學習->深度學習

1.3 課程背景

從圖像分類出發，Image比賽尤爲值得關注。

AlexNet(7層)->VGG(19層)->殘差(152層)，網絡結構層次越來越多，準確率越來越好。

CNN於2012年取得突破，對於CNN之後將重點講述，並講解算法深層架構理解，如何實現以及訓練完成。

http://cs231n.standford.edu/

2.1 圖像分類&數據驅動方法（python+Numpy）

圖像分類：計算機視覺真正核心的任務以及當前研究重點

語義鴻溝：你看到的圖片和計算機看到的陣列，例如800*600*3（RGB三通道）

挑戰：背景模糊、物體形變、遮擋。。。

已經實現的：計算邊緣->寫一些規則識別（不易實現）

如今的步驟：抓取一些有標籤的圖片數據集->用機器學習（訓練、預測函數）去訓練分類->評估用於新圖像的分類

實現K-近鄰以及線性分類器SVM和softmax

自己設計兩層神經網絡並實現

常見數據集（圖像類）：

1、MNIST：鏈接 http://yann.lecun.com/exdb/mnist/

描述：手寫數字識別，深度學習入門級數據集。包含60000個訓練數據及10000個測試數據，可分爲10類

2、MS-COCO：鏈接 http://cocodataset.org/#home

描述：各個論文中常用數據集之一，可用於圖像分割，邊緣檢測，關鍵點檢測及圖像捕獲

3、ImageNet：鏈接 http://www.image-net.org/

描述：最有名的圖像數據集之一，目前比較常用的模型如VGG、Inception、Resnet都是基於它訓練的。

4、Open Image Dataset：鏈接 https://github.com/openimages/dataset#download-the-data

描述：一個包含近900萬個圖像URL的數據集。這些圖像擁有數千個類別及邊框進行了註釋。該數據集包含9,011219張圖像的訓練集，41,260張圖像的驗證集以及125,436張圖像的測試集。

5、VisualQA：鏈接 http://www.visualqa.org/

描述：關於圖像的問答系統數據集

6、The Street View House Numbers(SVHN)：鏈接 http://ufldl.stanford.edu/housenumbers/

描述：門牌號數據集，可用來做物體檢測與識別

7、CIFAR-10：鏈接 http://www.cs.toronto.edu/~kriz/cifar.html

描述：有名的圖像識別數據集，包含 50000張訓練數據，10000張測試數據，可分爲10類

8、Fashion-MNIST：鏈接 https://github.com/zalandoresearch/fashion-mnist

描述：包含60000訓練樣本和10000測試樣本的用於服飾識別的數據集，可分爲10類

#最近鄰分類器的完整代碼
import numpy as np
class NearestNeighbor:
    def _init_(self):
        pass

    def train(self,X,y)
        self.Xtr = X
        self.ytr = y
    def predict(self,X):
        num_test = X.shape[0]
        Ypred = np.zeros(num_test,dype = self.ytr.dtype)
        for i in xrange(num_test):
            distances = np.sum(np.abs(self.Xtr-X[i:]),axis=1)#L1距離
            min_index = np.argmin(distances)
            Ypred[i] = self.ytr[min_index]
        return Yread

2.2 K-近鄰&KNN

L1距離曼哈頓距離求絕對值之和

L2距離歐式距離求平方和的平方根

訓練集+測試集+驗證集

監督學習（貼有標籤）

KNN：不適合圖像之間視覺感知的差異、維度問題

2.3 線性分類

$f(x,w)=w_{x}+b$

線性分類器+多分類。。。

3.1 損失函數和優化損失函數

度量損失函數

softmax->轉化_->log p

歸一化：標準化+中心化

正則化->過擬合->測試數據

3.2 優化

概念：最優化->隨機搜索

斜率->導數->梯度（負）

超參數：學習率/步長、誤差函數、損失誤差、梯度下降法、圖像特徵

分類器：原始像素載入SVM進行分類

深度學習：特徵表述傳入SVM 特徵轉換

負梯度方向->最小損失

正則化：減輕模型複雜度，不是去試圖擬合數據

多類別分類SVM

歐式範數

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

cs231n 計算機視覺（學習筆記1-3）

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

CVPR2020：Learning in the Frequency Domain(翻譯)（二）

深度學習&圖像處理（深度學習相關文獻學習6）

新詞彙：元學習/增強學習

Python學習（筆記4-數據清洗）

數字圖像處理（概論、基礎、基本運算）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結