Face Alignment at 3000 FPS via Regressing Local Binary Features（CVPR2014）讀後感（first pass）

這篇文章還是通過訓練形狀誤差與特徵的迴歸模型來做人臉配準(face alignment)。重點在於它用迴歸樹學習一個局部二值特徵（LBF，注意不是LBP），用線性迴歸來訓練迴歸模型。

摘要翻譯

這篇文章展示了對人臉配準問題的一個高效，非常準確的迴歸方法。我們的方法有兩個新穎的部分：一組局部二值特徵，和學習這些特徵的局部性準則。這個局部性準則指導我們獨立的爲每個人臉標記學習一組高判別性的局部二值特徵。這個得到的局部二值特徵會用於爲最終輸出聯合的學習一個線性迴歸模型（就是將這些局部而知特徵連起來作爲一個特徵向量）。我們的方法在目前很具有挑戰性的測試目標上獲得了超好的效果。進一步，由於提取和迴歸局部二值特徵計算量很低，我們這個系統的方法比之前方法快很多。它在筆記本上定位一組人臉標記點獲得了3000幀每秒的處理速度，或者在智能手機上（主要是ARM低功耗，計算能力差）300幀每秒。

介紹翻譯

判別性形狀迴歸方法以解決準確和魯邦的人臉配準的主流方法先後涌現出來。這主要是因爲這些方法有一些顯著的特徵：1）它們是純判別性的（這有什麼理論基礎麼？）；2）它們可以迭代的執行形狀約束（意思是，迭代的將形狀收斂到最好。）；3）它們有能力有效平衡訓練數據的具體體型（主要是由於線性迴歸有一個正則化項）。

形狀迴歸方法以級聯的方式預測臉部形狀 S 。從一個初始的形狀

，S 通過一級一級估計形狀增量

進階式改善的。在一個通用形式下，一個形狀增量

在 t 級迴歸爲

（1）

其中 I 是輸入圖像，

是來自於上一級的形狀，

是特徵映射函數，

是線性迴歸矩陣。應當注意的是

依賴於 I 和

。在這種方式下學到的特徵是指的是作爲一個“形狀編碼”特徵。通過將

加入到

，將回歸帶入到下一級。

這個特徵映射函數

在形狀迴歸中是必須的（意在說明LBF特徵的重要性）。在前人的工作中，它不是由人工設定，就是通過學習得到。文獻32的過程簡單的使用了SIFT特徵作爲特徵映射並通過線性迴歸訓練

（本文的方法與這片文章相比是隻是特徵更好，比如速度更快，局部性的優勢？）。相比於這種簡單方法的優良工作特性，手工設置的通用目標特徵並不是特定人臉配準問題的最優特徵。相反，文獻[5,3]方法以基於樹的迴歸結合

和

，並且是整個人臉區域的數據驅動的方法。

從原理上講，後面的基於學習的方法應該更好，因爲它學習的特徵是有針對性的。但是在已有文獻的報告中，它的效果只是與使用手工設的SIFT特徵的方法持平（on par 怎麼翻譯好？），我們認爲這主要由於過高自由度的

導致的兩個問題。第一個是實際操作的問題。使用整個人臉區域作爲訓練輸入結果導致了極大的特徵池，如果我們想要學習最具判別性的特徵組合，這個問題轉換爲了無法負擔的訓練消耗。第二個是泛化問題，這個問題更爲顯著。這個巨大的特徵池具有太多的噪聲特徵。這將很容易導致過擬合併有損測試集上的表現。

在我們的工作中，我們提出了一個更好地基於學習的方法。它通過一個“局部”原理使學習有規則的進行。這個原則主要是由於兩方面的見解：在一級中對於定位一個確定的地標點，1）最具判別性的紋理信息分佈在上一級估計出的地標店的周圍，2）形狀的信息內容和這個地標點的局部紋理提供了充足的信息。這些見解表明我們或許應該首先獨立的爲每一個地標點學習最具直覺型的特徵來編碼局部紋理特徵，然後再執行聯合的迴歸去融合形狀的信息內容。

爲學習

，我們提出了兩種正則化方法：

被分解爲一組獨立的特徵特徵映射函數，例如

（L 是地標點的數量）。每一個

通過獨立的在第L個地標點的周圍的區域迴歸學習到的。

這個提出的正則化方法可以有效的篩選出主要的噪聲和判別性較弱的特徵，降低學習的複雜度，從而導致更好地泛化性能。（我想這句話最重要）

爲學習每一個

，我們使用基於迴歸的集成樹去歸納二值特徵。爲預測地標點，這個二值特徵編碼了一個區域內的直覺性的結構信息。在集成了所有的局部二值特徵去組成特徵映射

之後，我們爲全圖的形狀估計判別性的學習了

。我們發現我們的二步學習處理方法（局部二值特徵和全局線性特徵）比通過基於樹的迴歸[5,3]的一步聯合的學習

和

要好很多。

除了具有更好地準確性，我們的方法還更高效。因爲局部二值特徵是基於樹的，並且高度稀疏，處理提取和迴歸這樣的特徵是十分迅速的。我們展出了一個快速的版本在一個單核筆記本上跑出了3000+fps，獲得了與最傑出的方法相媲美的結果。我們的正常情況下的版本跑出了300+fps的結果，並且在各種benchmark的精準度的比較上都比之前最傑出的方法更勝一籌。我們方法的高速性能在一些計算性能有限和計算負擔被主要擔心的場景和設備中顯得極爲重要。比如說，我們的快速版本仍然可以現代手機上跑出300fts的成績。據我們所知，在移動終端上這是速度幾倍於實時方法的第一種方法。這將爲一些在線人臉應用開闢新的機遇。

1st pass 小結

這篇文章有很高的應用價值。它與之前的face alignment by explicit shape regression都屬於判別性形狀迴歸的方法。這片文章主要用的方法是線性迴歸和迴歸樹。這片文章的主要貢獻是使用限制使用了局部特徵和迴歸樹，將特徵空間映射到線性空間，再使用線性迴歸學習。文章對於如何提取一個landmark周圍的像素點沒有說明。應該是先求得當前形狀和平均形狀之間的旋轉和尺寸變換後，在用變換後的offset去像素點（在One Millisecond Face Alignment with an Ensemble of Regression Trees中有詳細說明）。

整體思路

先說下整體的思路，再說這篇文章的特點，最後再說下問題（主要是我有疑問沒弄懂和弄懂的地方）。

1 整體思路是這樣的

Step 1 對圖片初始化 1 個shape（這個shape 就是一組點，目標是將它們移動到相應的眼睛鼻子嘴巴上）

Step 2 基於這個Shape 計算其每個點的周圍像素，或者兩shape兩個點中間像素的值（爲了對光照魯棒，一般是兩個點像素的差值）,這個特徵記做Features。

Step 3 計算當前Shape 和人工標記好Shape 的差異Delta_Shape , 然後訓練一個函數y = f(x) , 使 Delta_Shape = f(Features)。

Step 4 將這個Delta_Shape 加上初始的Shape 就是最終要求的人臉形狀。

這個過程就是該方法的Face Alignmeng 核心過程。所謂配準就是計算這個增量。訓練就是學習特徵與這個增量的關係。本文的方法是對這個過程進行了級聯，從而降低了每次配準的難度。將上文Step 4 中的結果代入Step1 循環10次。就是整體的過程。

本文特點

首先是特徵的學習。和之前的方法不同，這篇文章使用 Random Forest 學習的結果作爲特徵。而不是直接向之前一樣用像素差值作爲特徵，上個圖吧

這個圖比較宏觀，可以看出的是第二列的特徵是通過學習得到的，第四列的迴歸關係是線性的，也是通過學習得到的（這個過程本人還不是很懂，懂了之後對這一部分要豐富一下，但我知道可以用liblinear來做，過幾天做出來再講講裏面的細節和問題，對於內存不夠的問題可以用稀疏矩陣，可以看出第三列裏特徵矩陣式稀疏的）。

我現在還在研究上一幅圖第三列之前的過程是如何計算的，主要先說這一部分吧。當然如果計算出了這個局部二值特徵，本文的工作也完成一大半。因爲後面的工作是交給liblinear庫去做的。

對於局部二值特徵的學習現在是傷透了腦筋，對於連續的變量，不知道如何使用迴歸樹，更確切的講，離散的值可以算一個信息增益來選擇特徵，那麼連續的變量如何選擇特徵呢，使用哪些指標？

對於這個問題，現在找到了兩種辦法，第一個辦法是使用特徵與屬性的相關性來選擇特徵，然後在隨機給出閾值。另一個方法是選擇一個特徵和閾值，這個特徵和閾值可以讓將樣本分爲兩部分，每一部分求一個平均，然後兩部分的樣本各自減去平均值再求平方和。

FAQ

1. 對連續的X和Y 如何學習迴歸樹

這個可以參考face alignment by explicit shape regression這片文章和CART算法。

有些問題大家一起思考一下，儘可能寫下您的見解。

1 深度爲 5 和 7 的樹分別多少個splite node 和 leaf node。

2 什麼是迴歸？

3 迴歸樹的X 和 Y 分別是什麼？

4 對於樹中的一個split node ，它分到這個節點的樣本繼續分成兩部分，怎樣的兩部分纔是最好的？

5 什麼是SSE？

6 信息增益是什麼？（學習迴歸樹之前必看）

7 什麼叫做model combination ？

8 隨機森林和Boosted Tree 有什麼區別，本文的方法是那種？

參考資料

龍星課程2012lesson7 model combination.

X. P. Burgos-Artizzu, P. Perona, and P. Dollar. Robust face
landmark estimation under occlusion. 2013. （有源碼）

X. Cao, Y. Wei, F. Wen, and J. Sun. Face alignment by
explicit shape regression. In Computer Vision and Pattern
Recognition (CVPR), 2012 IEEE Conference on. IEEE,
2012.

Face Alignment at 3000 FPS via Regressing Local Binary Features（CVPR2014）讀後感（first pass）

摘要翻譯

介紹翻譯

整體思路

本文特點

關閉代理方法一 curl：7（）Failed to connect to 127.0.0.1

神經網絡激活函數的意義

Tensorflow transpose code analysis

tensorflow transpose 的c 實現

有符號二進制數乘法 Signed Binary Number Multiplication

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結