深度學習筆記（33）特徵點檢測

原創

2019-08-14 01:30

深度學習筆記（33）特徵點檢測

1. 特徵點

利用神經網絡進行對象定位，即通過輸出四個參數值b_x、b_y、b_h和b_w給出圖片中對象的邊界框
概括地說，神經網絡可以通過輸出圖片上特徵點的(x,y)座標來實現對目標特徵的識別

假設正在構建一個人臉識別應用，出於某種原因，希望算法可以給出眼角的具體位置
眼角座標爲(x,y)，可以讓神經網絡的最後一層多輸出兩個數字 $l$ _x和 $l$ _y，作爲眼角的座標值

如果想知道兩隻眼睛的四個眼角的具體位置，那麼從左到右，依次用四個特徵點來表示這四個眼角
對神經網絡稍做些修改，輸出第一個特徵點（ $l$ _1x， $l$ _1y），第二個特徵點（ $l$ _2x， $l$ _2y）
依此類推，這四個臉部特徵點的位置就可以通過神經網絡輸出了

2. 設定特徵點

也許除了這四個特徵點，還想得到更多的特徵點輸出值
還可以根據嘴部的關鍵點輸出值來確定嘴的形狀，從而判斷人物是在微笑還是皺眉
也可以提取鼻子周圍的關鍵特徵點
爲了便於說明，可以設定特徵點的個數
假設臉部有64個特徵點，有些點甚至可以幫助定義臉部輪廓或下頜輪廓
選定特徵點個數，並生成包含這些特徵點的標籤訓練集
然後利用神經網絡輸出臉部關鍵特徵點的位置

具體做法是，準備一個卷積網絡和一些特徵集
將人臉圖片輸入卷積網絡
輸出1或0，1表示有人臉，0表示沒有人臉，然後輸出（ $l$ _1x， $l$ _1y）……直到（ $l$ _64x， $l$ _64y）
這裏用 $l$ 代表一個特徵，有129個輸出單元
其中1表示圖片中有人臉，因爲有64個特徵，64×2=128
這只是一個識別臉部表情的基本構造模塊

如果玩過Snapchat或其它娛樂類應用
應該對AR（增強現實）過濾器多少有些瞭解，Snapchat過濾器實現了在臉上畫皇冠和其他一些特殊效果
檢測臉部特徵也是計算機圖形效果的一個關鍵構造模塊，比如實現臉部扭曲，頭戴皇冠等等
當然爲了構建這樣的網絡，需要準備一個標籤訓練集
也就是圖片x和標籤y的集合，這些點都是人爲辛苦標註的

3. 關鍵特徵點

如果對人體姿態檢測感興趣，還可以定義一些關鍵特徵點
如胸部的中點，左肩，左肘，腰等等

然後通過神經網絡標註人物姿態的關鍵特徵點
再輸出這些標註過的特徵點，就相當於輸出了人物的姿態動作

當然，要實現這個功能，需要設定這些關鍵特徵點
從胸部中心點( $l$ _1x， $l$ _1y)一直往下，直到( $l$ _32x， $l$ _32y)

一旦瞭解如何用二維座標系定義人物姿態，操作起來就相當簡單了
批量添加輸出單元，用以輸出要識別的各個特徵點的(x,y)座標值

要明確一點，特徵點1的特性在所有圖片中必須保持一致
就好比，特徵點1始終是右眼的外眼角，特徵點2是右眼的內眼角，特徵點3是左眼內眼角，特徵點4是左眼外眼角等等
所以標籤在所有圖片中必須保持一致
假如標記了一個足夠大的數據集，那麼神經網絡便可以輸出上述所有特徵點
可以利用它們實現其他有趣的效果，比如判斷人物的動作姿態，識別圖片中的人物表情等等

參考：

《神經網絡和深度學習》視頻課程

深度學習筆記（33）特徵點檢測

深度學習筆記（33）特徵點檢測

1. 特徵點

2. 設定特徵點

3. 關鍵特徵點

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

Python依賴文件requirements.txt的生成和安裝

樹莓派Raspberry Pi OS開機自啓動腳本

標準霍夫變換

Git筆記（29）搜索

Git筆記（32）高級合併

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

深度學習筆記（33） 特徵點檢測

深度學習筆記（33） 特徵點檢測

1. 特徵點

2. 設定特徵點

3. 關鍵特徵點

深度學習筆記（33）特徵點檢測

深度學習筆記（33）特徵點檢測