位姿：***圖像特徵-特徵提取-姿態估計

原文鏈接：http://blog.csdn.net/cloverwindy/article/details/8443296
有少量修改，如有疑問，請問原作者！

常用的圖像特徵有顏色特徵、紋理特徵、形狀特徵、空間關係特徵。
一：顏色特徵
（一）特點：顏色特徵是一種全局特徵,描述了圖像或圖像區域所對應的景物的表面性質。一般顏色特徵是基於像素點的特徵，此時所有屬於圖像或圖像區域的像素都有各自的貢獻。由於顏色對圖像或圖像區域的方向、大小等變化不敏感，所以顏色特徵不能很好地捕捉圖像中對象的局部特徵。另外，僅使用顏色特徵查詢時，如果數據庫很大，常會將許多不需要的圖像也檢索出來。顏色直方圖是最常用的表達顏色特徵的方法，其優點是不受圖像旋轉和平移變化的影響，進一步藉助歸一化還可不受圖像尺度變化的影響，基缺點是沒有表達出顏色空間分佈的信息。
        注：對於 pose的估計，顏色直方圖可以作爲超像素基元的統計特徵，在每一個小塊內保持不變性；

（二）常用的特徵提取與匹配方法

（1）顏色直方圖
        其優點在於：它能簡單描述一幅圖像中顏色的全局分佈，即不同色彩在整幅圖像中所佔的比例，特別適用於描述那些難以自動分割的圖像和不需要考慮物體空間位置的圖像。其缺點在於：它無法描述圖像中顏色的局部分佈及每種色彩所處的空間位置，即無法描述圖像中的某一具體的對象或物體。
         最常用的顏色空間：RGB顏色空間、HSV顏色空間。
         顏色直方圖特徵匹配方法：直方圖相交法、距離法、中心距法、參考顏色表法、累加顏色直方圖法。

（2）顏色集（如HSV 空間）
        顏色直方圖法是一種全局顏色特徵提取與匹配方法，無法區分局部顏色信息。顏色集是對顏色直方圖的一種近似首先將圖像從 RGB顏色空間轉化成視覺均衡的顏色空間（如HSV 空間），並將顏色空間量化成若干個柄。然後，用色彩自動分割技術將圖像分爲若干區域，每個區域用量化顏色空間的某個顏色分量來索引，從而將圖像表達爲一個二進制的顏色索引集。在圖像匹配中，比較不同圖像顏色集之間的距離和色彩區域的空間關係

（3）顏色矩（顏色分佈）
        這種方法的數學基礎在於：圖像中任何的顏色分佈均可以用它的矩來表示。此外，由於顏色分佈信息主要集中在低階矩中，因此，僅採用顏色的一階矩（mean）、二階矩（variance）和三階矩（skewness）就足以表達圖像的顏色分佈。

（4）顏色聚合向量
        其核心思想是：將屬於直方圖每一個柄的像素分成兩部分，如果該柄內的某些像素所佔據的連續區域的面積大於給定的閾值，則該區域內的像素作爲聚合像素，否則作爲非聚合像素。

（5）顏色相關圖

二：紋理特徵

（一）特點：紋理特徵也是一種全局特徵，它也描述了圖像或圖像區域所對應景物的表面性質。但由於紋理只是一種物體表面的特性，並不能完全反映出物體的本質屬性，所以僅僅利用紋理特徵是無法獲得高層次圖像內容的。與顏色特徵不同，紋理特徵不是基於像素點的特徵，它需要在包含多個像素點的區域中進行統計計算。在模式匹配中，這種區域性的特徵具有較大的優越性，不會由於局部的偏差而無法匹配成功。作爲一種統計特徵，紋理特徵常具有旋轉不變性，並且對於噪聲有較強的抵抗能力。但是，紋理特徵也有其缺點，一個很明顯的缺點是當圖像的分辨率變化的時候，所計算出來的紋理可能會有較大偏差。另外，由於有可能受到光照、反射情況的影響，從2-D圖像中反映出來的紋理不一定是3-D物體表面真實的紋理。
        例如，水中的倒影，光滑的金屬面互相反射造成的影響等都會導致紋理的變化。由於這些不是物體本身的特性，因而將紋理信息應用於檢索時，有時這些虛假的紋理會對檢索造成“誤導”。注：引入紋理語義分層分析；
        在檢索具有粗細、疏密等方面較大差別的紋理圖像時，利用紋理特徵是一種有效的方法。但當紋理之間的粗細、疏密等易於分辨的信息之間相差不大的時候，通常的紋理特徵很難準確地反映出人的視覺感覺不同的紋理之間的差別。

（二）常用的特徵提取與匹配方法

  紋理特徵描述方法分類：

（1）統計方法：
         統計方法的典型代表是一種稱爲灰度共生矩陣GLCM的紋理特徵分析方法Gotlieb 和 Kreyszig 等人在研究共生矩陣中各種統計特徵基礎上，通過實驗，得出灰度共生矩陣的四個關鍵特徵：能量、慣量、熵和相關性。統計方法中另一種典型方法，則是從圖像的自相關函數（即圖像的能量譜函數）提取紋理特徵，即通過對圖像的能量譜函數的計算，提取紋理的粗細度及方向性等特徵參數

（2）幾何方法：
         所謂幾何法，是建立在紋理基元（基本的紋理元素）理論基礎上的一種紋理特徵分析方法。紋理基元理論認爲，複雜的紋理可以由若干簡單的紋理基元以一定的有規律的形式重複排列構成。
        在幾何法中，比較有影響的算法有兩種：Voronio 棋盤格特徵法和結構法。

（3）模型   法：
        模型法以圖像的構造模型爲基礎，採用模型的參數作爲紋理特徵。典型的方法是隨機場CRF模型法，如馬爾可夫（Markov）隨機場（MRF）模型法和 Gibbs 隨機場模型法。

（4）信號處理法
        紋理特徵的提取與匹配主要有：灰度共生矩陣、Tamura 紋理特徵、自迴歸紋理模型、小波變換等。
        灰度共生矩陣特徵提取與匹配主要依賴於能量、慣量、熵和相關性四個參數。Tamura 紋理特徵基於人類對紋理的視覺感知心理學研究，提出6種屬性，即：粗糙度、對比度、方向度、線像度、規整度和粗略度。自迴歸紋理模型（simultaneous auto-regressive, SAR）是馬爾可夫隨機場（MRF）模型的一種應用實例。

三：形狀特徵

（一）特點：各種基於形狀特徵的檢索方法都可以比較有效地利用圖像中感興趣的目標來進行檢索，但它們也有一些共同的問題，包括：①目前基於形狀的檢索方法還缺乏比較完善的數學模型；
           ②如果目標有變形時檢索結果往往不太可靠；
           ③許多形狀特徵僅描述了目標局部的性質，要全面描述目標常對計算時間和存儲量有較高的要求；
           ④許多形狀特徵所反映的目標形狀信息與人的直觀感覺不完全一致，或者說，特徵空間的相似性與人視覺系統感受到的相似性有差別。
           另外，從 2-D 圖像中表現的 3-D 物體實際上只是物體在空間某一平面的投影，從 2-D 圖像中反映出來的形狀常不是 3-D 物體真實的形狀，由於視點的變化，可能會產生各種失真。注：對於pose的估計可以用基於形狀的3維圖像，擺脫視點影響，產生類似於VFH的特徵；

（二）常用的特徵提取與匹配方法

Ⅰ.幾種典型的形狀特徵描述方法
        通常情況下，形狀特徵有兩類表示方法，一類是輪廓特徵，另一類是區域特徵。圖像的輪廓特徵主要針對物體的外邊界，而圖像的區域特徵則關係到整個形狀區域。

幾種典型的形狀特徵描述方法：

（1）邊界特徵法：
         該方法通過對邊界特徵的描述來獲取圖像的形狀參數。其中Hough 變換檢測平行直線方法和邊界方向直方圖方法是經典方法。Hough 變換是利用圖像全局特性而將邊緣像素連接起來組成區域封閉邊界的一種方法，其基本思想是點—線的對偶性；邊界方向直方圖法首先微分圖像求得圖像邊緣，然後，做出關於邊緣大小和方向的直方圖，通常的方法是構造圖像灰度梯度方向矩陣。

（2）傅里葉形狀描述符法：
         傅里葉形狀描述符(Fourier shape deors)基本思想是用物體邊界的傅里葉變換作爲形狀描述，利用區域邊界的封閉性和週期性，將二維問題轉化爲一維問題。
         由邊界點導出三種形狀表達，分別是曲率函數、質心距離、復座標函數。

（3）幾何參數法：
         形狀的表達和匹配採用更爲簡單的區域特徵描述方法，例如採用有關形狀定量測度（如矩、面積、周長等）的形狀參數法（shape factor）。在 QBIC 系統中，便是利用圓度、偏心率、主軸方向和代數不變矩等幾何參數，進行基於形狀特徵的圖像檢索。
        需要說明的是，形狀參數的提取，必須以圖像處理及圖像分割爲前提，參數的準確性必然受到分割效果的影響，對分割效果很差的圖像，形狀參數甚至無法提取。

（4）形狀不變矩法：
         利用目標所佔區域的矩作爲形狀描述參數。

（5）其它方法
        近年來，在形狀的表示和匹配方面的工作還包括有限元法（Finite Element Method 或 FEM）、旋轉函數（Turning ）和小波描述符（Wavelet Deor）等方法。

Ⅱ 基於小波和相對矩的形狀特徵提取與匹配

        該方法先用小波變換模極大值得到多尺度邊緣圖像，然後計算每一尺度的 7個不變矩（注：參考小波矩在圖像識別中的應用研究），再轉化爲 10 個相對矩，將所有尺度上的相對矩作爲圖像特徵向量，從而統一了區域和封閉、不封閉結構。

四：空間關係特徵

（一）特點：所謂空間關係，是指圖像中分割出來的多個目標之間的相互的空間位置或相對方向關係，這些關係也可分爲連接/鄰接關係、交疊/重疊關係和包含/包容關係等。通常空間位置信息可以分爲兩類：相對空間位置信息和絕對空間位置信息。前一種關係強調的是目標之間的相對情況，如上下左右關係等，後一種關係強調的是目標之間的距離大小以及方位。顯而易見，由絕對空間位置可推出相對空間位置，但表達相對空間位置信息常比較簡單。

        空間關係特徵的使用可加強對圖像內容的描述區分能力，但空間關係特徵常對圖像或目標的旋轉、反轉、尺度變化等比較敏感。另外，實際應用中，僅僅利用空間信息往往是不夠的，不能有效準確地表達場景信息。爲了檢索，除使用空間關係特徵外，還需要其它特徵來配合。

（二）常用的特徵提取與匹配方法
        提取圖像空間關係特徵可以有兩種方法：一種方法是首先對圖像進行自動分割，劃分出圖像中所包含的對象或顏色區域，然後根據這些區域提取圖像特徵，並建立索引；另一種方法則簡單地將圖像均勻地劃分爲若干規則子塊，然後對每個圖像子塊提取特徵，並建立索引。


姿態估計問題：

        姿態估計問題就是：確定某一三維目標物體的方位指向問題。姿態估計在機器人視覺、動作跟蹤和單照相機定標等很多領域都有應用。
        在不同領域用於姿態估計的傳感器是不一樣的，在這裏主要講基於視覺的姿態估計。
        基於視覺的姿態估計根據使用的攝像機數目又可分爲單目視覺姿態估計和多目視覺姿態估計。根據算法的不同又可分爲基於模型的姿態估計和基於學習的姿態估計。

一：基於模型的姿態估計方法

        基於模型的方法通常利用物體的幾何關係或者物體的特徵點來估計。其基本思想是利用某種幾何模型或結構來表示物體的結構和形狀，並通過提取某些物體特徵，在模型和圖像之間建立起對應關係，然後通過幾何或者其它方法實現物體空間姿態的估計。這裏所使用的模型既可能是簡單的幾何形體，如平面、圓柱，也可能是某種幾何結構，也可能是通過激光掃描或其它方法獲得的三維模型。
        基於模型的姿態估計方法是通過比對真實圖像和合成圖像，進行相似度計算更新物體姿態。目前基於模型的方法爲了避免在全局狀態空間中進行優化搜索，一般都將優化問題先降解成多個局部特徵的匹配問題，非常依賴於局部特徵的準確檢測。當噪聲較大無法提取準確的局部特徵的時候，該方法的魯棒性受到很大影響。

二：基於學習的姿態估計方法

       基於學習的方法藉助於機器學習(machine learning)方法，從事先獲取的不同姿態下的訓練樣本中學習二維觀測與三維姿態之間的對應關係，並將學習得到的決策規則或迴歸函數應用於樣本，所得結果作爲對樣本的姿態估計。基於學習的方法一般採用全局觀測特徵，不需檢測或識別物體的局部特徵，具有較好的魯棒性。其缺點是由於無法獲取在高維空間中進行連續估計所需要的密集採樣，因此無法保證姿態估計的精度與連續性。
        基於學習的姿態估計方法源於姿態識別方法的思想。姿態識別需要預先定義多個姿態類別，每個類別包含了一定的姿態範圍；然後爲每個姿態類別標註若干訓練樣本，通過模式分類的方法訓練姿態分類器以實現姿態識別。
        這一類方法並不需要對物體進行建模，一般通過圖像的全局特徵進行匹配分析，可以有效的避免局部特徵方法在複雜姿態和遮擋關係情況下出現的特徵匹配歧義性問題。然而姿態識別方法只能將姿態劃分到事先定義的幾個姿態類別中，並不能對姿態進行連續的精確的估計。
        基於學習的方法一般採用全局觀測特徵，可以保證算法具有較好的魯棒性。然而這一類方法的姿態估計精度很大程度依賴於訓練的充分程度。要想比較精確地得到二維觀測與三維姿態之間的對應關係，就必須獲取足夠密集的樣本來學習決策規則和迴歸函數。而一般來說所需要樣本的數量是隨狀態空間的維度指數級增加的，對於高維狀態空間，事實上不可能獲取進行精確估計所需要的密集採樣。因此，無法得到密集採樣而難以保證估計的精度與連續性，是基於學習的姿態估計方法無法克服的根本困難。

        和姿態識別等典型的模式分類問題不同的是，姿態估計輸出的是一個高維的姿態向量，而不是某個類別的類標。因此這一類方法需要學習的是一個從高維觀測向量到高維姿態向量的映射，目前這在機器學習領域中還是一個非常困難的問題。

特徵提取：

       特徵是描述模式的最佳方式，且我們通常認爲特徵的各個維度能夠從不同的角度描述模式，在理想情況下，維度之間是互補完備的。
        特徵提取的主要目的是降維。特徵抽取的主要思想是將原始樣本投影到一個低維特徵空間，得到最能反應樣本本質或進行樣本區分的低維樣本特徵。（注：特徵的提取希望能得到從樣本分佈到特徵分佈的hash映射，並能儘量減少衝突，從高維度到低緯度的映射，這個過程的建立需要最優化的指導）
        一般圖像特徵可以分爲四類：直觀性特徵、灰度統計特徵、變換系數特徵與代數特徵。
        直觀性特徵主要指幾何特徵，幾何特徵比較穩定，受人臉的姿態變化與光照條件等因素的影響小，但不易抽取，而且測量精度不高，與圖像處理技術密切相關。
        代數特徵是基於統計學習方法抽取的特徵。代數特徵具有較高的識別精度，代數特徵抽取方法又可以分爲兩類：一種是線性投影特徵抽取方法；另外一種是非線性特徵抽取方法。
        習慣上，將基於主分量分析和Fisher線性鑑別分析所獲得的特徵抽取方法，統稱爲線性投影分析。

        線性投影分析的特徵抽取方法：
        其基本思想是根據一定的性能目標來尋找一線性變換，把原始信號數據壓縮到一個低維子空間，使數據在子空間中的分佈更加緊湊，爲數據的更好描述提供手段，同時計算的複雜度得到大大降低。在線性投影分析中，以主分量分析（PCA，或稱K-L變換）和Fisher線性鑑別分析（LDA）最具代表性，圍繞這兩種方法所形成的特徵抽取算法，已成爲模式識別領域中最爲經典和廣泛使用的方法。
        線性投影分析法的主要缺點爲：需要對大量的已有樣本進行學習，且對定位、光照與物體非線性形變敏感，因而採集條件對識別性能影響較大。

        非線性特徵抽取方法也是研究的熱點之一。“核技巧”最早應用在SVM中，KPCA和KFA是“核技巧”的推廣應用。
        核投影方法的基本思想是將原樣本空間中的樣本通過某種形式（這個某種要靠自己找了...）的非線性映射，變換到一個高維甚至無窮維的空間，並藉助於核技巧在新的空間中應用線性的分析方法求解。由於新空間中的線性方向也對應原樣本空間的非線性方向，所以基於核的投影分析得出的投影方向也對應原樣本空間的非線性方向。

        核投影方法也有一些弱點：幾何意義不明確，無法知道樣本在非顯式映射後變成了什麼分佈模式；核函數中參數的選取沒有相應選擇標準，大多數只能採取經驗參數選取；不適合訓練樣本很多的情況，原因是經過核映射後，樣本的維數等於訓練樣本的個數，如果訓練樣本數目很大，核映射後的向量維數將會很高，並將遇到計算量上的難題。
         就應用領域來說，KPCA遠沒有PCA應用的廣泛。如果作爲一般性的降維KPCA確實比PCA效果好，特別是特徵空間不是一般的歐式空間的時候更爲明顯。但PCA可以通過大量的自然圖片學習一個子空間，但是KPCA做不到。

        變換系數特徵指先對圖像進行Fourier變換、小波變換等，得到的係數後作爲特徵進行識別。