深度學習(十五):目標定位 Object Localization

這是一系列深度學習的介紹,本文不會涉及公式推導,主要是一些算法思想的隨筆記錄。
適用人羣:深度學習初學者,轉AI的開發人員。
編程語言:Python
參考資料:吳恩達老師的深度學習系列視頻
吳恩達老師深度學習筆記整理
深度學習500問
筆記下載:深度學習個人筆記完整版

圖像分類

圖片分類問題已經並不陌生了,例如,輸入一張圖片到多層卷積神經網絡,它會輸出一個特徵向量,並反饋給softmax單元來預測圖片類型。

目標定位 Object Localization

定位分類問題:不僅要用算法判斷圖片中是不是一輛汽車,還要在圖片中標記出它的位置,位置一般用**邊框(bounding box)**標記。通常只有一個較大的對象位於圖片中間位置,我們要對它進行識別和定位。

對象檢測問題:圖片可以含有多個對象,甚至單張圖片中會有多個不同分類的對象。

因此,圖片分類的思路可以幫助學習分類定位,而對象定位的思路又有助於學習對象檢測。

  • 目標分類 Object Classification:是什麼?
    分類
  • 目標定位 Object Localization:在哪裏?是什麼?(單個目標)

定位

  • 目標檢測 Object Detection:在哪裏?分別是什麼?(多個目標)
    檢測

示例 Example

如果你正在構建汽車自動駕駛系統,那麼對象可能包括以下幾類:行人、汽車、摩托車和背景,這意味着圖片中不含有前三種對象,也就是說圖片中沒有行人、汽車和摩托車,輸出結果會是背景對象,這四個分類就是softmax函數可能輸出的結果。
在這裏插入圖片描述
這有四個分類,神經網絡輸出的是這四個數字(標記爲bx,by,bw和bh,這四個數字是被檢測對象的邊界框的參數化表示)和一個分類標籤,或分類標籤出現的概率。目標標籤的定義如下:
在這裏插入圖片描述
它是一個向量,第一個組件Pc表示是否含有對象,如果對象屬於前三類(行人、汽車、摩托車),則Pc=1,如果是背景,則圖片中沒有要檢測的對象,則Pc=0。我們可以這樣理解Pc,它表示被檢測對象屬於某一分類的概率,背景分類除外。

損失函數的定義,採用平方誤差策略,損失值等於每個元素相應差值的平方和:
在這裏插入圖片描述

特徵點檢測 Landmark Detection

神經網絡可以通過輸出圖片上特徵點的座標來實現對目標特徵的識別。
在這裏插入圖片描述

如上圖2與3,分別是臉部特徵檢測、人體姿態檢測,這些前期都需要人工辛苦地標註出來,真是人工智能,沒有人工,哪來的智能,哈哈。

對於臉部特徵檢測,比如微笑打分,就是藉助這個原理,再者給頭像添加聖誕帽等等操作。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章