模式特徵抽取研究進展

模式特徵抽取研究進展
2011年06月16日
  模式特徵抽取研究進展
  楊靜宇,金忠,楊健
  南京理工大學計算機科學與技術學院,210094,南京
  摘要:
  特徵抽取不但從原始模式信息中提取出最有利於模式分類的特徵,而且極大地降低模式樣本的維數,是模式識別研究領域的重要研究內容。本文首先簡要回顧模式特徵抽取的經典方法,然後介紹近年來在主分量分析、非線性鑑別分析、流形學習、基於稀疏表示的圖像特徵抽取等方面的理論和方法研究的主要進展,最後分析了模式特徵抽取研究趨勢。
  1.引言
  模式識別是一個與人類的認知、視覺和聽覺過程緊密相連的問題,其核心研究問題之一就是特徵抽取(Feature Extraction)問題。人腦在每天感知外界事物的過程中,首先面臨着一個特徵抽取的問題,即利用大約3萬聽覺神經纖維和100萬視覺神經纖維,從高維的感官輸入信息(如視頻圖像、音頻信號等)中抽取便於管理的很小數量的感知關聯特徵來完成對事物的認識。
  從模式樣本的原始信息中提煉出最有利於模式分類的有效信息這一過程通常稱爲模式特徵抽取。因此,特徵抽取的過程本質上可以看成在一定準則下的優化問題。同時,在特徵抽取的過程中,也極大地降低了模式的維數。因此,特徵抽取不但從原始模式信息中得出了最有利於模式分類的特徵,而且這些特徵與原始樣本信息相比,極大地降低了模式樣本的維數,因此特徵抽取也是一種維數削減的有效方法,這一點對高維模式樣本(例如圖像)識別而言十分重要。模式特徵抽取問題可以定義爲:在高維的觀察樣本空間中尋找其隱藏的有意義的低維數據結構,並藉此分析和探索事物的內在規律。在衆多學科領域的研究中,科學工作者們經常需要處理海量的高維數據,如全球氣候模式、恆星光譜、人類基因分佈、遙感及視頻圖像等,因此,模式特徵抽取問題研究具有廣泛的應用前景。
  國內外關於模式特徵抽取理論與方法研究如火如荼。總體來說,特徵抽取技術可分爲兩大類:線性特徵抽取和非線性特徵抽取。目前,線性特徵抽取算法研究的側重點在於小樣本問題,該問題和樣本數據的高維性是緊密相關的,因此在特徵抽取研究中是不可迴避的。對於非線性特徵抽取,近年來無論理論研究還是應用開發都取得了長足的發展,有兩個較大的分支值得注意。一是基於kernel的特徵抽取技術[1-3],以支持向量機、kernel主分量分析和kernel鑑別分析爲代表;二是以流形學習(manifold learning)爲主導的維數約減理論和技術[4],2000年SCIENCE(科學)上的兩篇文章開創了流形學習的先河[5,6]。有證據表明,基於流形學習的維數約減方法與人本身的認知機理具有某種內在的關聯性,故該方法有着潛在的重要的研究價值。
  圖像是一種包含大量信息的媒體,圖像信息的採集、處理、分析、檢索和識別是當前信息科學與技術領域非常重要的研究課題。圖像自動處理與分析是模式識別與計算機視覺學科研究的主要內容,圖像特徵抽取理論研究豐富與完善了模式特徵抽取理論體系。近年來,有關生理學的研究成果表明:人類的視覺系統具有對圖像的稀疏表示特性[7],基於稀疏表示的壓縮感知理論已引起信息論及相關領域極大的興趣和廣泛關注[8-10],爲模式特徵抽取研究領域注入了新鮮的血液與發展動力。
  本文介紹近年來在主分量分析、非線性鑑別分析、流形學習、基於稀疏表示的圖像特徵抽取等方面的理論和方法研究的主要進展,並分析了發展趨勢。
  2. 主分量分析
  2.1 K-L變換
  在統計模式識別理論中,主分量分析(Principal Component Analysis, PCA, 或稱K-L變換)是最爲經典的特徵抽取方法[11-12]。設 爲m維隨機變量,主分量分析可以定義爲尋找 個相互正交的m維單位向量,使得如下均方誤差最小:
  這裏, 稱爲模式 第 個主分量, 爲m維隨機變量 的協方差矩陣 的前 個最大特徵值所對應的本徵向量:
  其中 。
  主分量分析也可以等價地定義爲尋找 個m維單位向量 ,使得如下方差 最大:
  PCA特徵 能夠最大保持模式 的內在分佈規律、並消除模式分量之間的相關性,可以實現模式樣本的維數削減。PCA使用線性模型來描述數據,具有簡單,便於計算等優點,得到了廣泛的應用。
  2.2 非線性主分量分析
  對於複雜模式來說,線性模型過於簡單了,以至於無法反映複雜模式的內在規律。理論與實驗都證明,複雜模式的特徵之間往往存在着高階的相關性,因此觀測數據集呈現明顯的非線性。爲了適應這一特徵,有必要將PCA向非線性推廣。
  KPCA (核主分量分析)是一種成功的非線性主分量分析方法[2-3],它旨在將輸入空間通過非線性函數映射到更高維特徵空間,並在高維特徵空間中應用PCA方法。由於在輸入空間中數據分量間存在複雜關係的情況下,在輸入空間中應用PCA這一線性方法不能捕獲對樣本數據描述能力強的特徵;此時,KPCA方法的意義得以彰顯:KPCA在由非線性映射而得的高維空間中應用PCA的手段,因此,它仍能捕獲對特徵空間中樣本數據描述能力強的特徵。KPCA 方法廣泛地應用於特徵抽取, 人臉識別, 圖像處理等問題。基於KPCA 方法對某樣本進行特徵抽取時, 需計算該樣本與所有訓練樣本間的核函數; 訓練樣本集越大, 相應計算量也越大, 效率也越低, 而很多實際的模式分類任務要求系統具有較高的效率。因此,KPCA存在的其特徵抽取效率隨着訓練樣本集增大而下降的特點會使得該方法很難滿足實際應用的效率需要,這將影響甚至制約該方法的推廣和應用。
  KPCA通過核技巧能夠成功地將非線性的數據結構儘可能地線性化,其侷限性就是它的計算複雜度。直觀上,對於全局結構非線性的數據來說,從局部看,數據可以呈現出線性性質,因此用來描述數據的局部線性結構的局部PCA方法吸引了研究人員的興趣[13-16]。Liu與Xu藉助於Kohenen自組織映射神經網絡提出了拓撲局部PCA模型[17],該模型能夠利用數據的全局拓撲結構與每個局部聚類結構。應用比較廣泛的局部PCA方法是一個兩步方案,首先利用矢量量化技術將數據空間分成若干個區域,然後在每個局部區域進行PCA分析。神經網絡方法應用起來不方便,而兩步方案的局部PCA方法描述局部的程度也不夠充分。
  在實際應用中,數據中可能存在孤立樣本。 例如,在計算機視覺問題中,由於遮擋、光照條件變化,圖像數據容易受到很大的影響。由於協方差矩陣對孤立樣本是非常敏感的,從而由解協方差矩陣的特徵矢量問題得到的PCA特徵的有效性會受到孤立樣本的很大影響[18]。 Xu等假定所有的數據樣本都是孤立樣本[19],通過利用統計物理方法由邊際分佈定義出能量函數建立了魯棒PCA的自組織規則。Torre與Black提出了能夠學習高維數據(例如:圖像)的線性多變量表示的魯棒PCA[20]。解決孤立樣本問題的其它方法是建立協方差矩陣的魯棒性估計,另一些方法是利用投影追蹤(Projection Pursuit)技術[21-22]。最近,Burton利用平均技術得到人臉圖像的魯棒PCA表示[23],而Zhao與Xu將常用的平方誤差準則替換成對數平方誤差準則建立了魯棒PCA方法[24]。在高維空間,由於樣本數的限制,孤立樣本的判斷更加困難,統計方法不再那麼有效。
  最近,Xu研討了KPCA特徵抽取的加速方法[25],Das提出了依賴於類的主成分分析(Classwise PCA),適合於類重疊度高的分類問題[26-27]。Park等提出了類增強的主成分分析(Class-Augmented PCA)[28],分成三個步驟:對類信息編碼、將編碼信息增強進入數據、對類增強數據進行主成分分析。
  2.3 二維主分量分析與張量分析
  常規的PCA技術是針對矢量數據而言的,對於計算機視覺中的圖像數據,一個直接的方法是將圖像的各個象素數據疊加成一個矢量數據,但其維數就相當地高了。在高維空間中,由於訓練樣本數是有限的,很難精確地估計協方差矩陣。另外,將二維的圖像矩陣轉化爲一維的矢量,只能部分保持圖像像素的鄰近關係。
  設 爲維隨機矩陣, 二維主分量分析(Two-Dimensional PCA, 2DPCA)[29-30]可以定義爲尋找 個n維單位向量,使得如下協方差矩陣的跡 最大:
  這裏, 爲 維圖像協方差矩陣。 可以稱爲2DPCA特徵,其維數是,這樣2DPCA需要比PCA更多的表示係數。
  與常規的PCA的協方差矩陣相比,直接利用原始的圖像矩陣構造的圖像協方差矩陣維數要小得多。因此,2DPCA具有如下重要的優點:不改變圖像像素的鄰近關係,容易精確地估計圖像協方差矩陣,計算相應的本徵矢量所需要的計算量明顯降低。
  2DPCA的提出引起了衆多研究人員的極大興趣,不時可以看到新的研究成果發表[31-35],已經引導出一系列的後續研究論文,主要集中在對算法的理解與計算技巧上[36]。Nagabhushan等將2DPCA用於3D物體識別[32],Zuo等提出了一個聚集的矩陣距離測度來度量兩個矩陣特徵的距離[33], Chen等甚至提出了將矢量數據矩陣化的特徵抽取方法[34]。Wang等研討了圖像PCA方法與按行分塊的分塊PCA方法的等價性問題[35]。分塊PCA方法看上去思路很簡單,更容易直觀理解。
  2DPCA作爲“most popular dimensionality reduction algorithms”(最流行的維數削減算法)之一納入到圖嵌入的框架中[37].最近的研究工作進一步揭示了2DPCA用於圖像表示的不變性[38],即水平2DPCA 的變換矩陣獨立於圖像行序列的任何變化,豎直2DPCA 的變換矩陣獨立於圖像列序列的任何變化。
  2DPCA思想激發了特徵抽取理論與應用從1階張量(向量),到2階張量(即矩陣)再到高階張量的發展歷程。最近,Xiaofei He等提出了張量子空間分析方法[39], Wang等提出了二維圖像與高維張量數據的Datum-as-Is表示法[40]。
  3.鑑別分析
  3.1 線性鑑別分析
  線性鑑別分析(Linear Discriminant Analysis, LDA)的基本思想是由Fisher最早提出的,其目的是選擇使得Fisher準則函數達到極值的向量作爲最佳投影方向,從而使得樣本在該方向上投影后,達到最大的類間離散度和最小的類內離散度。在Fisher思想的基礎上,Wilks[41] 和Duda[42] 分別提出了鑑別矢量集的概念,即尋找一組鑑別矢量構成子空間,以原始樣本在該子空間內的投影矢量作爲鑑別特徵用於識別。
  Fisher線性鑑別分析無論在理論上還是在應用上都取得長足的發展[43-46],成爲一種廣泛使用的、十分有效的特徵抽取工具。在特徵抽取的理論中,要求抽取的特徵之間儘可能是不相關的,這一要求的出發點是有利於提高模式識別的準確性和實現最大限度的維數削減。Jin等[44-45]提出了具有統計不相關性的最優鑑別分析的概念和相關理論,該理論從統計不相關的角度,提出了具有統計不相關性的最優鑑別矢量集的定義。著名的Foley-Sammon鑑別矢量集通常難以消除模式樣本特徵之間的相關性,甚至經過Foley-Sammon變換後的特徵分量之間有時是強相關的。與Foley-Sammon鑑別矢量集只滿足正交條件不同的是,具有統計不相關性的最優鑑別矢量要求滿足共軛正交條件。Jin等[45]揭示了兩個經典的鑑別準則與之間的理論聯繫,建立了在特徵提取投影方法中幾何上的概念“正交條件”、“共軛正交條件”與統計上的概念“相關”、“不相關”之間的理論聯繫。
  對於類別協方差矩陣不同的情況,異方差鑑別分析方法[46]可以得到比LDA 更好的分類性能。 Ridder對Fisher準則函數加以改進,將Fisher鑑別分析的理論體系加以拓廣,使得其在理論和算法上具有更廣泛的適用性[47]。H.F. Li等提出了最大邊際準則[48],用差分代替經典線性鑑別中的商,所以對類內散度矩陣的奇異不敏感。Song等提出了大間距線性投影鑑別準則[49]以及最大散度差鑑別準則[50]。Kwak等提出了模糊Fisher分析方法[51],Zhuang等提出了逆Fisher鑑別分析方法[52],Yang等研討了模糊逆Fisher鑑別分析方法[53]。
  3.2 小樣本問題
  小樣本問題是鑑別分析中的一個棘手問題,也是一個研究熱點,它產生的主要原因是:模式識別中樣本的維數往往大大超過訓練樣本的個數,這樣就會造成類內散度矩陣的奇異。
  解決小樣本問題較早的是1989年J.H. Friedman等提出的正則化鑑別分析方法[54],通過增加擾動使類內散度矩陣非奇異。Hong等使用奇異值擾動的方法來解決類內散度矩陣的奇異問題[55],並證明了這種擾動的穩定性和最優性。Yang等提出了秩分解方法[56-58]。Hastie提出了懲罰鑑別分析[59]。P.N. Belhumeur等[60]提出了PCA+LDA的兩步鑑別分析方法,首先用PCA 降維,使類內散度矩陣不再奇異,然後再執行線性鑑別分析(LDA)。
  L. Chen等提出了零空間的鑑別分析方法[61],在類內散度矩陣的零空間中尋找鑑別信息。Hua Yu等提出了直接的線性鑑別分析方法[62],通過先對角化類間散度矩陣後對角化類內散度矩陣來執行LDA。 Yang等證明了在PCA的變換空間中執行線性鑑別分析的合理性[63],並提出了組合的線性鑑別分析方法。 P. Howland等[64]利用廣義奇異值分解解決小樣本的奇異問題。
  一些實用的近似算法也相繼提出[65-67]。Thomas提出了基於直接協方差矩陣選擇的線性鑑別分析方法[68] 。Liu等[69]在Triangle square ratio準則下將組合的線性鑑別分析應用於人臉識別, Kyperountas等[70]提出瞭解決小樣本問題的加權分段LDA方法。最近,Jiang等[71]提出本徵譜的正則化方法。
  3.3 非線性鑑別分析
  關於非線性鑑別分析的研究最早追溯到二十世紀七十年代。當時,K. Fukunaga提出了一系列基於改進Fisher準則的非線性鑑別分析方法[72]。但是,由於這些算法都是針對一些特定的問題提出的,再加上其具體實現的複雜性,使得這些非線性鑑別分析方法一直沒有得到廣泛的應用。直到九十年代,隨着統計學習理論的成熟和支持向量機(Support Vector Machine, SVM)在模式識別領域的成功應用,一些基於kernel的非線性特徵抽取方法相繼產生[73]。在kernel主分量分析理論與算法基礎上,Mika提出了kernel鑑別分析的概念[74]。由於Mika的方法只適用於兩類問題,Baudat等[75]提出了適用於多類問題的kernel鑑別分析算法。隨後的研究者分別從不同的角度應用和發展了非線性鑑別分析理論與算法。
  由於Kernel鑑別分析的計算複雜度與訓練樣本的個數有關[76-77],即爲訓練樣本個數的三次方。當訓練樣本個數較大時,Kernel鑑別分析算法的計算效率受到嚴峻的挑戰,如何大幅度地提高核鑑別矢量的計算效率,設計出更爲高效的Kernel鑑別分析算法,乃當務之急[76-78]。現有鑑別分析的穩健性和抗干擾能力有待驗證,如何設計穩健的鑑別分析算法也是一個待研究的重要課題[79-80]。
  Yang等[81-82] 證明了KFDA的本質是KPCA+LDA,並在無限維的Hilbert 空間內建立了完備的Kernel Fisher鑑別分析KPCA+LDA的兩階段構架,充分利用了兩類非線性鑑別信息,提高了非線性鑑別特徵的有效性。Zafeiriou等[83]以“KFDA等價於KPCA plus LDA”爲理論基礎導出了最小類方差的支持向量機算法。
  3.4 二維線性鑑別分析
  受2DPCA的啓發,有學者陸續提出了二維線性鑑別分析(2DLDA)方法[84-87]。Nhat等提出了具有一定鑑別信息的圖像PCA方法[88], Jing等研討了兩階段的二維鑑別分析方法[89], 這就是2DPCA+LDA。
  Qiu與Wu提出了二維最近鄰鑑別分析方法以改進最近鄰分類的性能[90]。Zhi與Ruan提出了二維直接加權線性鑑別分析方法[91],首先基於圖像矩陣計算圖像協方差矩陣,然後利用加權方法減弱類重疊的影響,再利用直接LDA方法提取鑑別特徵。Liang等[92]分析了二維鑑別分析準則的上界,研討了在相同維度下,二維鑑別分析方法的侷限性。Zheng等[93]對一維鑑別分析與二維鑑別分析進行了比較研究,提出了二維鑑別分析作爲Bayes最優特徵抽取方法的充分條件。
  最近,Wang等將二維主分量分析與二維極大散佈差組合在一起[94],提出了二維極大散佈差鑑別分析方法。Yang等[95] 認爲極大邊界準則忽略了樣本局部結構鑑別信息以及嵌入在圖像內的結構信息,提出了基於拉普拉斯雙向極大邊界準則的鑑別特徵抽取方法,通過將圖像類內拉普拉斯矩陣與圖像類間拉普拉斯矩陣的差異在行、列兩個方向上的極大化來計算鑑別矢量。
  將二維的方法擴展到多維,Yan 等[96]提出了基於張量的鑑別分析方法。最近,Zhang等[97]提出了張量線性拉普拉斯鑑別(Tensor linear Laplacian discrimination, TLLD)算法。它是線性鑑別分析(LDA)與線性拉普拉斯鑑別(LLD)在非線性子空間學習和張量表示兩方面的拓展。Nie等[98]提出確定局部張量鑑別分析維數的算法。
  4.流形學習
  4.1 流形學習定義
  理論與實驗都證明,複雜模式的特徵之間往往存在着高階的相關性,因此數據集呈現明顯的非線性性,並且往往是由一組維度遠遠低於樣本維度的隱含變量決定的。在數學上,具有上面性質的模型是流形。以流形爲模型,利用流形的基本假設和性質來研究高維空間中的數據分佈,達到簡約數據,降低維度,探尋複雜模式的內部規律的學習方法被稱爲流形學習。2000年,Seung提出感知以流形方式存在[5],並通過實驗證明了人腦中的確存在着穩態的流形。這爲統計模式識別與人類感知架起了一座橋樑[99,100],使得流形學習具有了更加堅實的理論基礎。
  流形學習可形式化定義爲:令 是包含在 歐式空間中的 維域,令 爲一光滑嵌入,其中 。數據集 由某個隨機過程生成,經映射形成觀測空間的數據集 。一般稱 爲隱空間, 爲隱數據。流形學習的目標是要從觀測數據 中重構映射 和 。
  流形學習的核心,是如何合理有效地對數據進行流形建模,即如何找到一個好的流形模型,能夠較好的逼近數據,使得數據的內在結構性質能夠在流形上良好地保持下來,以便研究者通過對流形模型的研究,獲得對數據集內在結構的深刻認識。對數據進行流形建模主要有兩條途徑:“隱式”的圖嵌入方法、“顯式”的主流形方法。
  4.2 圖嵌入方法
  圖嵌入方法並不在觀測空間中構造學習流形,而是學習觀測數據之間的近鄰關係或者全局關係,並在低維特徵空間中重現這種關係,從而實現從低維特徵空間到高維觀測空間的一個隱式的流形映射。
  2000年在Science上發表的文章分別提出了局部線性嵌入(LLE)[6]與等度特徵映射(Isomap)算法[101],奠定了流形學習的基礎。隨後M. Belkin 等又提出了拉普拉斯特徵映射的方法[102]。經過近些年的發展,不斷湧現出LTSA[103], HLLE[104], SDE[105-106], Diffusion Map[107-108]等方法,以及算法之間的關係[109-112]。目前,流形學習的研究正進一步走向深入。
  Xiaofei He等將拉普拉斯特徵映射方法線性化,提出了局部保持投影方法(LPP)[113],將流形學習方法成功運用於鑑別分析中。LPP只考慮了局部信息,Jian Yang同時考慮了局部信息和全局信息,提出了非監督的鑑別投影(UDP)[114]。 Chen 等提出了局部鑑別嵌入(LDE)[115],Yan等提出了邊界Fisher分析方法(MFA)[110],Sun等提出了局部保持的典型相關分析算法(LPCCA)[116],促進了高維小樣本情況下特徵抽取與鑑別分析的發展,並取得了廣泛的應用成果[117-118]。
  最近,Pan等提出了非監督學習的加權的局部線性嵌入(WLLE)方法[119],用以發現數據中的諸如鄰近關係、全局分佈、聚類的本徵結構,其主要優勢在於通過避開不合理的鄰居搜索優化了本徵結構發現的過程。Hou等提出了一種穩定的局部維數削減方法[120],LLE、LE、LTSA可以分別發展爲SLLE、SLE、SLTSA。Liu等[121]提出了一種多層等距特徵映射方法(Multi-Layer ISOMAP)。
  在二維局部保持投影方法(2DLPP)[122-123]的基礎上,Zhi與Ruan提出了二維局部保持的鑑別投影方法[124],Wan等提出了二維局部圖嵌入的鑑別分析方法[125]。
  4.3 主流形
  主流形方法力圖在高維觀測空間中直接構造學習流形來逼近觀測數據,可以追溯到上世紀80年代Hastie的HS主曲線[126]及其後續的一些主曲線工作:K主曲線[127-128],概率主曲面[129],正則主流形[4],非監督核迴歸主曲面[130]等。
  HS主曲線[126]強調流形的自相合性質,即位於數據分佈的“中間”的性質;K主曲線[127-128]是有限彎曲的主曲線與正則主流形,在最小二乘意義下最小化流形到觀測數據集的距離。產生式拓撲映射(GTM) [131]與概率主流形(PPM) [132]是從密度函數估計的角度來學習流形。D主曲線[133]從數據投影的方差性質出發學習流形。
  主流形方法能夠明確地構造逼近數據的流形,因此能夠較爲靈活地逼近數據,並能夠在流形上進行各種分析,如與數據集的距離,樣本之間在流形上的距離等,並且不侷限於流形的連通性等限制,是一種具有吸引力的流形學習方法。但面臨模式特徵抽取任務時,傳統的主流形方法具有以下問題:
  l 與模式統計特徵抽取關係不明確。主流形方法往往應用於數據描述任務,例如字符骨架提取,圖像目標邊緣描述等,但其在模式統計特徵抽取中的應用還存在理論和算法上的困難。正如Smola[4]指出的那樣,傳統主流形方法是適合於數據描述任務(即探究數據具有何種典型性質)的學習方法,而非適合於特徵抽取任務(即探究何種特徵能夠可靠地反映數據的內在結構)的學習方法。
  l 主流形方法需要構造較爲複雜的非線性模型,並進行優化,因此其常常面臨着初始解質量不佳以及優化算法的局部最優問題。
  l 主流形逼近的約束問題。無約束地用流形任意逼近數據會導致無意義的解。如何爲流形選擇適當的約束,是主流形學習的關鍵。正則主流形方法在數據描述任務背景下爲主流形學習提供了一個統一的正則化框架,而特徵抽取任務下的流形逼近約束任務尚沒有得到深入的研究。
  在主流形學習的初始解選取方面,非監督核迴歸主曲面[130]首先採用傳統統計特徵抽取方法,如PCA,KPCA等或者圖嵌入方法,如LLE,ISOMap等來提供隱變量初始解;然後,以留一重構誤差爲目標,進一步優化隱變量,在特徵抽取方面取得了好的結果。非監督核迴歸主曲面方法展示了圖嵌入這種“隱式”的流形學習方法,同主流形或隱變量模型這種“顯式”的流形學習方法結合的思路。在[134-135]中,以LaplacianEigenmap方法得到的特徵作爲隱變量,可以構造隱變量模型,實際上構造了一個主曲面。
  近年來,主流形方法在初始化,學習算法,正則約束條件等方面都取得了一定的進展。Sun等提出了相似性保持的主曲線理論[136, 159],將保持樣本之間的相似性關係作爲主曲線學習的目標之一,並基於此,發現相似性保持主曲線的投影指標函數是一個魯棒的特徵抽取器,從而爲主流形方法走向統計特徵抽取架起了橋樑。在主流形學習的正則約束方面,Feuersanger等[160]考慮了在稀疏網格上學習主流形,稀疏性保證了學習流形的簡單性,從而可能獲得較好的推廣性能。
  5. 基於稀疏性理論的圖像特徵抽取
  Serre在其博士論文中指出,人類的視覺系統具有對圖像的稀疏表示特性[7]。科學工作者們揭示了在低層和中層的人類視覺系統中,視覺通道中的許多神經元對大量的具體的刺激,比如目標的顏色、紋理、朝向和尺度等,具有選擇性。若將這些神經元視爲視覺階段的超完備集中的信號基元的話,神經元對於輸入圖像的激活機制具有高度的稀疏性。其實,我們很容易體驗我們的視覺系統對圖像感知的稀疏性,給定一幅人臉圖像,加以很強的噪音污染或者將其縮小,我們還是能夠輕而易舉地將其識別出來。這說明,我們不需要感知圖像中所有的像素,只要感知其中很稀疏的一部分就足以完成識別任務了。
  5.1 稀疏表示理論
  稀疏表示理論最早源於“有效編碼假說”,即視覺感知的目標就是產生一個外部輸入信號的有效表示。到底怎樣的表示纔是有效的呢?研究人員從不同的角度來回答這一問題。一類生理機理測試方法,即觀察在自然圖像刺激條件下檢測神經細胞的響應特性,如Vinje 和Gallant在2000年Science上發表的研究成果[137]:通過記錄短尾猴V1區在開放的和模擬的自然場景下的神經細胞響應,驗證了視皮層(V1區)神經細胞用稀疏編碼有效表示自然場景,稀疏編碼用最小冗餘度傳遞信息。另一類是模型仿真方法,即利用自然圖像的統計特性,建立模型來模擬早期視覺系統的處理機制。例如Olshausen和Field [138]提出了稀疏編碼模型,通過尋找自然圖像的稀疏編碼表示,使稀疏編碼網絡學習得到類似於簡單細胞感受野的結構。Hyvarinen 和Hoyer[139] 應用一個兩層的稀疏編碼模型來解釋類似於複雜細胞感受野的存在和簡單細胞的拓撲結構。
  在圖像處理領域,關於圖像稀疏表示的研究大體上沿着兩條主線展開。其一是多尺度分析理論(單一基方法):研究者認爲圖像具有非平穩性和非高斯性,很難用線性算法處理,應建立適合處理邊緣及紋理各層面幾何結構的圖像模型,因此以Ridgelet, Curvelet, Bandlet, Contourlet 變換爲代表的多尺度幾何分析方法[140-143]成爲圖像稀疏表示的有效途徑;其二是過完備庫分解理論(多基方法):Mallat和Zhang首先提出信號在過完備庫(over-complete dictionary)上分解的思想[144],該分解能夠根據信號本身的特點自適應選取表示基,故能夠實現信號更爲稀疏的表示。該思想被後來的研究者不斷的豐富和發展[145],催生了一系列基於稀疏表示的圖像分解方法,其中值得一提的是Starck等提出的一種將圖像分解爲幾何結構、紋理和噪聲的形態分量框架[146-147],該框架假設圖像的幾何結構和紋理分量在特定的基底或過完備庫上是類內稀疏的,而用於各形態分量表示的基底或過完備庫之間具有互不相關性,從而通過結構分量和紋理分量的分類稀疏表示來實現圖像形態分量的有效分離。
  5.2 壓縮感知理論
  在信息論和信號處理領域,壓縮感知理論最近悄然興起並日漸升溫。壓縮感知(compressed sensing),也稱爲壓縮採樣(compressive sampling)或稀疏採樣(sparse sampling),是利用信號本身的稀疏性先驗信息建立起來的一套用於信號獲取和重建的理論和方法。斯坦福大學的D. Donoho教授, 加州理工學院的E. Candes教授, 和加州大學的華裔數學奇才T. Tao教授等在該方面做出了重要的奠基性工作[8-10]。
  稀疏性思想方法已經“潤物細無聲”地滲透到模式識別領域。最近,K. Labusch 等[148]報道了一個令人振奮的結果:基於稀疏編碼(Sparse coding)的方法在大規模的MNIST標準字符庫上的識別率優於經典的Gabor變換方法。該結果表明稀疏編碼的理論方法可能會在模式識別中找到廣闊的用武之地。另外,基於Curvelet, Contourlet變換的方法被應用於人臉識別,並取得了令人鼓舞的試驗結果[149]。
  5.3 Kernel學習理論的稀疏表示
  稀疏性概念在Kernel學習理論中時常出現。該學習理論中,稀疏性的含義是解的“表示係數”的稀疏性,“表示係數”的稀疏性直接決定了Kernel學習機器的計算複雜度。對支持向量機而言,其分界面是由少數支持向量確定的,也就是其法向量的表示係數是稀疏的,其稀疏性程度決定了支持向量機的分類速度。爲了提高支持向量機的速度,研究者提出了具有更稀疏性解的學習機器,如M. Tipping 提出的 Relevance Vector Machine [150].隨後的研究探討了在表示係數空間內採用l1-範數代替l2-範數,建立了稀疏的KPCA[151]和稀疏的KFD模型[74]並給出了具有稀疏表示係數的解。
  Kernel學習理論的稀疏表示是指解的表示係數的稀疏性,對降低特徵抽取和分類過程中的計算量是有意義的,但無法刻畫圖像模式內部(Intra-pattern)的稀疏性。針對如何抽取模式內部真正有意義的“稀疏”特徵, Zhou等[152]提出了稀疏主分量分析(Sparse principle component analysis, SPCA)方法,該方法首先將PCA刻畫成爲一個迴歸最優化問題,然後加上一個關於迴歸係數的l1-範數約束,求出的一組迴歸係數(即PCA的投影向量)具有稀疏性,即投影向量的大部分元素爲零。隨後,d'Aspremont等[153]和Moghaddam等[154]分別建立了基於勢(cardinality)約束的SPCA模型並給出了不同的求解算法。Moghaddam等進一步將他們的SPCA模型推廣爲基於勢約束的鑑別分析模型並提出了稀疏鑑別分析(Sparse linear discriminant analysis, SLDA)方法[155]。K. Huang和Aviyente [156]認爲基於信號重建的方法鑑別能力相對較弱,但對噪聲等污染不敏感;相反,基於鑑別性的方法鑑別能力強,但對抗噪聲等污染的能力差,故提出一種融合基於稀疏表示的信號重建和鑑別分析爲一體的方法,試驗結果表明該方法即有較好的鑑別能力又有較強的抗污染能力。最近,Cai等提出了一種將源於流形學習的LPP稀疏化的技術:稀疏子空間方法[157],並在人臉識別的試驗中證實了該方法的有效性。
  5.4 圖像模式的稀疏性
  圖像模式的稀疏性不僅體現在模式內部,也體現在模式之間。模式內部(Intra-pattern)的稀疏性刻畫爲特徵抽取提供了依據,模式之間(Inter-pattern)的稀疏性則爲分類器的設計提供了可能。最近, Wright等[158]利用模式間的稀疏性設計出一種基於稀疏表示分類(Sparse representation-based classification)方法,其基本思想是,一個待識別的圖像樣本,在各類訓練樣本總體構成的基底上的表示係數(表示係數通過求解一個通用的稀疏表示模型得到)是稀疏的,也就是說,表示係數大部分爲零,不爲零的部分應爲在同類樣本上的表示係數。該方法在稀疏表示與模式分類之間建立了一座橋樑,爲稀疏表示理論在模式識別的應用樹立了一個良好的開端。
  6.研究趨勢
  模式特徵抽取任務是將高維觀察空間的樣本映射到一個低維的特徵空間內,使得在該空間內,模式類之間的可分離性在某種準則意義下得到最佳的保持或增強。最常用的準則是Fisher鑑別準則,該準則簡單而易於優化,但在理論上有相當的侷限性。從理論上揭示各種準則之間的內在關係,將Fisher鑑別分析的理論體系加以拓廣,建立面向高維數據分析的廣義鑑別分析的理論和算法具有重要的理論意義。
  在模式識別理論中,特徵抽取的一般原則是所抽取的特徵之間的統計相關性越小越好,最好是抽取統計不相關的特徵或統計相互獨立的特徵。近年來,獨立分量分析(Independent Component Analysis, ICA),受到人們的普遍關注,成爲信號處理、機器學習和模式識別等領域的研究熱點。由於獨立分量分析方法不僅涉及到變量間的二階相關性還涉及到變量間的高階相關性,故獨立分量分析可視爲主分量分析的一種推廣。增強獨立分量的鑑別能力是模式特徵抽取研究的一個可行方向。
  隨着數據採集技術的不斷提高(如提高圖像採集的分辨率),原始數據已逐漸呈現縱向的高維性和橫向的多重性的態勢。數據縱向的高維性直接導致了小樣本問題的產生,即在這些問題中,數據的維數大大超過訓練樣本的個數。數據橫向的多重性造成了樣本表示的複合性,即對於同一樣本,通過多傳感器可獲得多組特徵集,如何有效的融合多組特徵而獲得最佳的識別效果,是一個亟待解決的問題。
  已有流形學習方法主要側重於研究數據的分佈及如何更好地描述數據,以應用於維數約減、數據可視化方面,但與模式分類的關係不夠緊密。如何更有效地將流形學習與模式分類相結合是一個值得研討的方向。
  目前,稀疏性理論和方法研究大多集中在生理和視覺科學、信息論、信號處理、圖像處理等領域,稀疏性和模式識別相結合的研究較少,還處在起步階段,基於稀疏性的特徵抽取和模式分類無論在理論上還是在算法上,都有待於發展和完善。此外,提取基於稀疏性的、符合人類視覺感知特性的鑑別特徵(如圖像原始要素特徵、表徵特徵、二維基素圖[161])等具有重要意義。這種稀疏鑑別特徵可以用來直接從二維圖像中提取具有感知、描述、理解和鑑別該圖像數據庫的能力,其研究成果對探索人類的認知過程與進一步瞭解人類認知圖像對象的本質具有十分重要的理論意義。
  特徵選擇(Feature Selection)是從已有特徵集合中篩選出一個最優特徵子集,其過程一般與分類器交互。與特徵選擇不同,特徵抽取的過程一般與分類器沒有交互。最近,Yang提出了由分類器到鑑別器的概念[162],由分類器驅動的模式特徵抽取方法研究是一個新的研究方向。
  7.結語
  本文首先簡要回顧模式特徵抽取的經典方法,然後介紹近年來在主分量分析、非線性鑑別分析、流形學習、基於稀疏表示的圖像特徵抽取等方面的理論和方法研究的主要進展,最後分析了模式特徵抽取研究趨勢。由於篇幅限制,對模式特徵抽取的其它一些重要研究方向(包括獨立分量分析、典型相關分析、半監督學習等)沒有展開討論。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章