5-圖像處理與深度學習-讀書筆記
本筆記根據PaddlePaddlePPT中第5章內容整理總結。
1.概述
1.1 圖像識別目標
1.2 圖像識別挑戰
- 語義鴻溝(Semantic Gap)現象:圖像的底層視覺特性和高層語義概念間的鴻溝
1.3 圖像識別基本框架
2.傳統圖像識別技術
2.1 早期圖像識別技術(1990-2003)
2.1.1 特徵提取
- 全局特徵提取:用全局的視覺底層特性統計量表示圖像
圖片被表示成向量:原圖片→向量空間映射→向量表示 - 全局特徵示例:顏色特徵、紋理特徵、形狀特徵
- 特徵變換:提高特徵表示性能
- 流形學習(Manifold Learning):高維數據映射爲低維空間下的向量表示
- 簡單特徵變換:中心化、歸一化、去相關、白化
2.1.2 索引技術
2.1.3 相關反饋
2.2 中期圖像識別技術(2003-2012)
2.2.1 特徵提取
- 局部特徵(Local Feature):圖像區塊(Patch)的向量
- 特徵檢測子(Feature Detector):檢測圖像區塊中心位置(interest points)
- 特徵描述子(Feature Desciptor):描述區塊的視覺內容
- 局部檢測子:Harris,DoG,SURF,Harris-Affine,Hessian-Affine,MSER
- 局部描述子:SIFT,PCA-SIFT,GLOH,Shape Context,ORB,COGE
2.2.2 向量化
- 局部特徵轉化爲視覺關鍵詞(即特徵量化,Feature Quantization):查找視覺關鍵詞,轉化局部特徵向量爲關鍵詞序號
- 常用特徵量化技術:Hierarchical 1-NN、KD-tree
- 基於視覺關鍵詞的圖像表示:
2.2.3 索引技術 - 倒排索引
- 排序:tf-IDF加權(Term frequency-inverse document frequency)
2.2.4 後處理 - 查詢擴展:使原有查詢項含更多局部特徵,再進行擴展查詢
- 其他後處理技術:局部幾何驗證(Local Geometric Verification)、乘積量化(Product Quantization)
3.深度學習與圖像識別
3.1 深度學習發展歷程
- 深度學習在圖像領域的應用:圖片檢索、識別異常的腫瘤、圖片描述、圖片着色
3.2 爲什麼使用深度學習
- 人腦視覺機理:1)視感覺階段-信息採集 2)視知覺階段-信息認知
- 神經-中樞-大腦:原始信號攝入(像素)-初步處理(邊緣、方向)-抽象(形狀)-進一步抽象(具體物體)
3.3 如何使用深度學習
3.3.1 如何使用深度學習解決圖像識別
- 使用機器學習(深度學習)的目的:尋找一個合適的函數
3.3.2 使用步驟:建立模型(人)、損失函數(人)、參數學習(機器)
3.3.3建立模型
- 常用激活函數:Sigmoid、TanH、ArcTan、ReLU、PReLU
- 前置神經網絡:輸入層→隱藏層→輸出層
- 模型例子:AlexNet、VGG、GoogleNet、Residual Net
- 輸出層:softmax函數作爲輸出層激活函數,易理解好計算
- 設置合適的網絡結構:層數、節點個數、激活函數
3.3.4 損失函數 - 常用損失函數:平方損失函數、交叉熵損失函數
- 總損失:
3.3.5 參數學習
- 梯度下降:
- 反向傳播算法:鏈式法則
4.課程實踐
- 人臉識別