【轉】dodo:人臉識別方法個人見解(一)

轉自:http://blog.sina.com.cn/s/blog_4d92192101008en6.html

 

(此貼最開始於 2007-6-23 19:50 發表在 prfans.com 上) 
dodo
 

TPAMI = IEEE Transactions on PAMI 這個雜誌
PAMI  是指 pattern analysis and machine intelligence這兩個領域

1)PCA和LDA及其相關方法


Eigenfaces和Fisherfaces無疑是人臉識別中里程碑式的工作。就使用的方法而言,PCA和LDA都不是新方法,但是他們都是被第一次十分明確的用在人臉識別中的方法。之所以說"十分明確",是因爲就發表的時間來看,這兩個論文都不是首次把這兩個方法用在PAMI相關的分類識別中。這給我們一個小小的啓示:一個新的方法專注於解決一個具體的問題可能會帶來更大的影響,雖然這個方法具有一般性。

在現在人臉識別的方法中,這兩個方法也是follow的人最多的。究其原因,除了其有效性之外,簡單是其最大的特點。縱觀PAMI歷史風雲,能經受住時間考驗而流傳下來的方法,除了有效之外一般都有兩個特點其一:1)簡單(PCA, LDA, K-Means, Normalized Cuts etc.);2)複雜,但是解決一個具有一般性而且很難被解決的問題 (在AAM、3d morphable model有深刻影響的Lucas-Kanade算法)。所以如果你的方法一般人都有能力做得到,那就儘量把你的方法做的簡單明確。這就是外國人推崇備至的所謂的Ockham's Razor原理(就個人情感而言,我十分討厭這個名詞)。在這裏我要強調一點是,這裏說的簡單並不是說原理簡單,Normalized Cuts就方法本身來說簡單,但是原理並不簡單;微分幾何中的Gauss-Bonnet定理形式非常簡單,內涵何其豐富。

在此我想多提兩句。由於國內有諸多發論文的方法論,其中一個流傳下來的一句話就是:系統做的越簡單越好,理論做的越複雜越好。不可否認,這句話有它有道理的地方,但是如果用這句話教育後人,誤人子弟矣。

後來出現了許多新的與之類似的方法,就TPAMI上發表的來看,比較有代表性就是 HE Xiaofei 的LPP和 YAN Shuicheng 的MFA。關於這兩個方法的評論大家可參看j.liu貼中knato的回帖。
在這裏我想談談我的個人見解。首先這兩個方法的出現有它們的意義。LPP是流形學習中Laplacian Eigenmaps線性化,這樣無疑會帶動其它流形學習方法在識別問題中的嘗試,一個爲解決問題找到一個思路,二個爲進入寒冬的流形學習找到新的用武之地,雖然這兩個都不是上檔次的思路,但是潛在影響還是有的。後來 YANG Jian 的UDP就是在LPP號召下在TPAMI上的產物。LPP是非監督方法,所以它的識別性能比LDA好的概率極其微弱。
MFA是基於局部數據關係的監督鑑別方法。它有兩個最近臨近點數量的參數要調。這兩個參數是這個方法雙刃劍。參數調的好,MFA會比LDA效果好,調的不好則不行。這樣MFA用起來比LDA複雜,這樣如果MFA的性能比LDA好的有限,而用起來複雜得多的話,它終將被歷史所拋棄。
另外就像j.Liu在他的帖子中說出的一樣,這些方法有一定的投機性,比如這兩篇文章的試驗,他們都把Fisherfaces(PCA+LDA)設爲c-1,雖然這是按照原始論文的取法,但是是做過這方面工作的人都知道PCA的主元數目如果取得太大,PCA+LDA的性能會顯著降低,在WANG Xiaogang的IJCV上的Random sampling LDA中清楚地給出了圖形說明。所以他們論文中給出的實驗比較不具可信性。

LPP, UDP, MFA都是我們中國人(至少這些方法發表時還都是)爲第一作者發表的方法,個人認爲其存在有一定的價值,但它們將是PAMI研究發展中的過眼煙雲,無法與PCA,LDA相媲美。

2)LDA奇異性問題

衆所周知,LDA是基於求解廣義特徵值問題(Sb*u=Alpha*Sw*u),所以在實際應用時遇到奇異性的問題,就是Sw矩陣不可逆。在人臉識別中解決這一問題的論文“浩如煙海”。這也說明了LDA的影響力之大。在這一類方法中,也有風格之分。

o. PCA 降維
在Fisherfaces中採用的就是先用PCA降維,再用LDA,這也是現在處理這一問題的一般方法。這裏有個比較諷刺的事情。Belhumeur在他的論文裏說:PCA actually smears the classes together。那末既然smears the classes together,既然PCA破壞類的結構,那爲什莫還要用PCA降維?而且事實證明,即使在Sw可逆的情況下,用PCA features也會增強LDA在人臉識別中的性能。這裏只能說明,PCA的作用或是PCA features並不是Belhumeur和其以後follow這樣說法的人敘述的那樣。PCA雖然簡單,但是人們應該對它有個正確的認識,這個以後如果有機會再談。

a. RDA
至今影響最大最實用的還是基於regularization思想的RDA。其實這個問題不僅僅在人臉識別中才被注意到。很早在統計中就被解決過,RDA發表於1989的Journal of the Americal Statistical Association雜誌上,可見其久遠。在Sw上加一個擾動項也是解決這一問題的最簡單方法。

b.子空間投影
論文最多的也就在這一塊。應用knato類似的排列組合方法,令image(Sw)和null(Sw)分別表示Sw的列(像)空間和零空間,則我們可很容易的就列出如下組合方法(強調:這裏卻不是提供給大家發論文的方法論,而是以較形象的方式敘述!)
把樣本投影到
aa. image(Sb), bb. null(Sw), cc. image(Sw), dd. image(Sw)+null(Sw), ee. image(Sb)+null(Sw) 可並列可串行, ff. image(St)+null(Sw)
以上每一種組合就代表不止一篇論文,在此就不詳細列舉了。另外,你還可以把random sampling技術加進來,這樣就可以不止翻倍。還有,你還可以把同樣的技術用到KPCA KLDA (kFA)上,這樣又可翻倍。更進一步,你還可以把ICA,LBP, Gabor features等諸如此類的東西和以上子空間混合,...,子子孫孫無窮盡焉。
這個東西做的最多的是國內的 YANG Jian。另外香港中文大學的 TANG Xiaoou 和他以前的學生 WANG Xiaogang 也做這相關的工作。YANG Jian的工作可以用他在TPAMI上的 KPCA plus LDA 這篇文章來概括,雖然他灌水無數,但就子空間方法而言,他這篇文章還有他發表在國內自動化學報上的那篇長文還是有東西的。如果你想做這一塊的工作,值得看一看,是個較爲全面的總結。TANG Xiaoou在子空間方面的代表工作(開山之作)就是dual spaces LDA, random sampling (and bagging) LDA, unified subspaces。(在此之後他還有學生一直在做,就不詳細列舉了。)

我建議想做這一塊工作的同學們,要把TANG and YANG的工作爛熟於心,取長補短,相互學習,取其精華,這樣可以較爲快速而全面地掌握。

c. QR分解
矩陣和數值功底比較好的人,能做得更像模像樣。Cheong Hee Park 和 YE Jieping 無疑是這方面的高手。去看看他們在TPAMI,JMLR, 和SIAM的J. Matrix Anal. & Appl上發表的論文可知一二。

d. 相關性
如果Sw可逆,則Sb*u=Alpha*Sw*u可以轉化爲 inv(Sw)*Sb*u=Alpha*u。那末就可以考察Sw的子空間和Sb子空間的相關性。這方面的代表工作就是Aleix M. Martinez在TPAMI上長文的那個工作。

e. 變商爲差
變u'*Sb*u/(u'*Sw*u)爲u'*(Sb-Sw)*u。

3)基於圖像局部結構的方法

這一類獲得廣泛認可的方法有Gabor和LBP,另外還有可能有用的SIFT和differential features。
Gabor應用比較早有影響力的代表作就是EBGM。Gabor也是提取用來識別的visual feature的最常用手段。
有無數人因爲LBP的極其簡單而懷疑它的性能,但是有趣的是最近Ahonen在TPAMI上的短文,就是把LBP應用在人臉識別上,沒有任何新的改進,這也說明Reviewer們和editor對這類方法的肯定和鼓勵。在非監督feature extraction中,LBP有明顯的優勢,但是絕對沒有達到作者在論文顯示的那個水平。在他的論文中,LBP特別weighted LBP效果非常好,這和他們應用的FERET人臉庫的人臉crop形式有關。他們應用CSU的橢圓模板來crop人臉,如果應用正方形的模板weighted LBP提高很有限。特別在FRGC Version 2上測試,LBP絕對沒有一般監督性的識別方法好。另外這也給我們一個小小啓示,就是加個weight其識別性能就能大大提高,這說明什莫問題呢?

另外,LBP對image blocks大小有一定的敏感性,這個是要承認的。但是LBP有一個性能穩定的image blocks,並不是人們認爲的histogram要符合一定的統計性等等。這個block size的選取比最優的PCA主元數目的選取要容易得多。當然這些都是小問題。

國內有人做Gabor和LBP的結合。當然是值得探索的,但是我個人認爲不應該在這兩種方法結合上花費太多精力。完全可以用類似形式考慮別的思路。

4) Sparse representation

NMF和NTF都屬於sparse representation的方法,都曾被應用在人臉識別中,但效果都非常有限。特別是NTF,屬於數學理論上非常優美,但是實際效果很勉強的典型。

另外,Sparse representation (coding) 是一個很有趣也是很有前途的方法,Sparse representation 有很多方式,關鍵要看你怎莫用、解決怎樣的問題。過段時間我們還有機會再談。

5)Tensor方法

Tensor在人臉識別中至少到現在爲止,還非常得不成功。最典型的就是M. Alex O.Vasilescu在ECCV'02上的tensorfaces。他們對於問題的分析和tensor的對應天衣無縫,非常有道理,數學實現上也同樣簡單,但是自從那個方法發表出來以後基本無人follow。究其原因,個人認爲就是把本來簡單的問題複雜化,最重要的就是複雜化以後並沒有帶來該有的益處。

Alex對tensor的應用是flattening high-way tensor。這是一種常見的處理tensor的方法,這樣做的好處就是使tensor好處理易於計算。two-way tensorfaces就是我們理解的Eigenfaces。但是同樣是tensor,這種tensor和Amnon Shashua的NTF有着本質的區別。NTF是純正的tensor思想。但是它實現起來過於複雜,又加上原理比Alex的tensor更復雜,所以無人問津。但是不可否認,它們都是數學上十分優美的方法。如果你想學習tensor而又不想枯燥,我推薦你去看這三篇論文(Shashua兩篇)。

6)參數模型


參數模型的應用也多種多樣,比如HMM, GMM等。這兩個都是一般性的建模方法,所以應用也很龐雜,而且在人臉識別中的應用大多是從speech recognition中的方法轉化而來,在此就不多談。有興趣的同學們可以參看H. Othman在PAMI上的論文和Conrad Sanderson在PR上的論文。

但是在此其中,最簡單的是Baback Moghaddam在TPAMI上那個Probabilistic Subspaces的文章,這個文章也是WANG Xiaogang的unified spaces的參考原本。

7) 3D 模型

代表作是Volker Blanz在TPAMI上的那個文章。不過個人十分不看好。

8)Personal Perspectives

a. 基於子空間的方法很難在實際應用中有所用處

b. 基於找圖像局部結構的方法更有希望。像EBGM, LBP, SIFT之類可以給我們很多有益的啓示。這點和j.liu的觀點一致。

c. 把人臉識別中的方法推廣開來,應用到一般的分類和統計問題中,這也是人臉識別衍生出來的一大作用。

d. 由於我們國內的特殊研究環境,大家一般都喜歡做簡易快的工作,所以人臉識別這一領域出現有華人名字的論文爲數可觀。其實在某些壓力之下這也無可厚非,但是還是希望我們國人在有條件的情況下,不要以發論文爲主,多關注於解決問題本身、儘量向推動理論發展的方向努力。我們絕對有這個能力。君不見,NIPS‘06兩篇Best student paper被在國外留學的中國人獲得,CVPR'07更是又傳來喜訊:Best student paper由清華學生獲得,這些都是跡象。我們正處於一個意氣風發、大有可爲的時代。就本人學術水平和資歷來說,絕沒有資格來說這些話,這只不過是個人的一點心願和號召而已,同時更是勉勵自己。


以上均是dodo個人拙見,囿於本人才疏學淺,難免出現掛一漏萬和觀點偏頗的情況,還請大家及時批評指正,以免曲彼誤人。謝謝

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章