5-圖像處理與深度學習-讀書筆記


本筆記根據PaddlePaddlePPT中第5章內容整理總結。

1.概述

1.1 圖像識別目標
1.2 圖像識別挑戰

  • 語義鴻溝(Semantic Gap)現象:圖像的底層視覺特性和高層語義概念間的鴻溝

1.3 圖像識別基本框架
測量空間\underrightarrow{特徵表示}特徵空間\underrightarrow{特徵匹配}類別空間

2.傳統圖像識別技術

2.1 早期圖像識別技術(1990-2003)
2.1.1 特徵提取

  • 全局特徵提取:用全局的視覺底層特性統計量表示圖像
    圖片被表示成向量:原圖片→向量空間映射→向量表示
  • 全局特徵示例:顏色特徵、紋理特徵、形狀特徵
  • 特徵變換:提高特徵表示性能
  • 流形學習(Manifold Learning):高維數據映射爲低維空間下的向量表示
  • 簡單特徵變換:中心化、歸一化、去相關、白化

2.1.2 索引技術
2.1.3 相關反饋
2.2 中期圖像識別技術(2003-2012)
2.2.1 特徵提取

  • 局部特徵(Local Feature):圖像區塊(Patch)的向量
  • 特徵檢測子(Feature Detector):檢測圖像區塊中心位置(interest points)
  • 特徵描述子(Feature Desciptor):描述區塊的視覺內容
  • 局部檢測子:Harris,DoG,SURF,Harris-Affine,Hessian-Affine,MSER
  • 局部描述子:SIFT,PCA-SIFT,GLOH,Shape Context,ORB,COGE

2.2.2 向量化

  • 局部特徵轉化爲視覺關鍵詞(即特徵量化,Feature Quantization):查找視覺關鍵詞,轉化局部特徵向量爲關鍵詞序號
  • 常用特徵量化技術:Hierarchical 1-NN、KD-tree
  • 基於視覺關鍵詞的圖像表示:
    圖像\underrightarrow{特徵提取}局部特徵\underrightarrow{特徵量化}視覺詞袋\to視覺關鍵詞直方圖
    2.2.3 索引技術
  • 倒排索引
  • 排序:tf-IDF加權(Term frequency-inverse document frequency)
    2.2.4 後處理
  • 查詢擴展:使原有查詢項含更多局部特徵,再進行擴展查詢
  • 其他後處理技術:局部幾何驗證(Local Geometric Verification)、乘積量化(Product Quantization)

3.深度學習與圖像識別

3.1 深度學習發展歷程

  • 深度學習在圖像領域的應用:圖片檢索、識別異常的腫瘤、圖片描述、圖片着色

3.2 爲什麼使用深度學習

  • 人腦視覺機理:1)視感覺階段-信息採集 2)視知覺階段-信息認知
  • 神經-中樞-大腦:原始信號攝入(像素)-初步處理(邊緣、方向)-抽象(形狀)-進一步抽象(具體物體)

3.3 如何使用深度學習
3.3.1 如何使用深度學習解決圖像識別

  • 使用機器學習(深度學習)的目的:尋找一個合適的函數

3.3.2 使用步驟:建立模型(人)、損失函數(人)、參數學習(機器)
3.3.3建立模型

  • 常用激活函數:Sigmoid、TanH、ArcTan、ReLU、PReLU
  • 前置神經網絡:輸入層→隱藏層→輸出層
  • 模型例子:AlexNet、VGG、GoogleNet、Residual Net
  • 輸出層:softmax函數作爲輸出層激活函數,易理解好計算
  • 設置合適的網絡結構:層數、節點個數、激活函數
    3.3.4 損失函數
  • 常用損失函數:平方損失函數、交叉熵損失函數
  • 總損失:L=r=1RlrL=\sum_{r=1}^{R}l_r

3.3.5 參數學習

  • 梯度下降:w=wηLww=w-η\frac{∂L}{∂w}
  • 反向傳播算法:鏈式法則

4.課程實踐

  • 人臉識別
發佈了13 篇原創文章 · 獲贊 1 · 訪問量 636
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章