【論文筆記】Manifold-Based Visual Object Counting

一、基於流形的視覺目標計數

  1. 提出了一種基於流形的視覺目標計數方法;
  2. 通過正則化和非線性映射來考慮非負性和稀疏表示,來優化局部幾何的特徵;
  3. 用局部模式學習和分層搜索被用來進一步提高所提出的方法及其變體的計算效率。

二、方法概括

figure1 提出的基於流形的視覺對象計數方法。橙色框內爲測試部分(step 4)。紅色爲訓練部分(step 1-3)。

  1. 基於訓練樣本的點標註生成密度圖作爲groundtruth,並從中訓練圖像中提取圖像patch,從密度圖中提取密度patch;
  2. 對提取的patch集進行特徵工程;
  3. 對patch集做聚類,並生成層級架構;
  4. 對patch集作密度圖重構,目標爲得到最優權重,以生成測試集的密度圖。

三、流形假設

本文提出了一種流形假設:相似的圖像patch其密度圖也相似,即patch和其密度圖是共享相似局部幾何的兩種流形。那麼,就可以從相似的圖像patch及其密度圖推測出未知圖像的密度圖。那麼,圖像patch x\pmb{x} 和其密度圖 xd\pmb{x}_d就可以表示爲:

四、方法詳細流程

1. 生成訓練集的密度圖

figure2. 行人點標註和對應的密度圖

  • 密度圖可以用2D高斯核函數計算:Idi(z)=UUiN(z;U,σ212×2)\pmb{I}_d^i(z) = \sum_{U\in{\pmb{U}^i}}\mathcal{N}(z; U,\sigma^2\pmb{1}_{2\times2})其中Id\pmb{I}_dI\pmb{I}的密度圖,即ground truth,zz 是圖像 Ii\pmb{I}^i 的像素索引,ii是圖像索引, UU 是標註的點的座標,Ui\pmb{U}^iIi\pmb{I}^i 中所有點的座標集。N\mathcal{N}是歸一化2D高斯核函數,σ2\sigma^2 是用於平滑局部分佈的 N\mathcal{N} 的方差,並且根據對象的大小(大約是對象大小的1/2)來設置。- 而目標計數可以計算爲密度圖上所有點之和:Idi(z)=zIdiIdi(z)\pmb{I}_d^i(z) = \sum_{z\in{\pmb{I}_d^i}} \pmb{I}_d^i(z)

2. 特徵工程

  • 爲了增加特徵空間中的採樣密度和減少計算負擔,採用主成分分析法(PCA) 對patch形式的原始數據特徵進行集中、歸一化和降維。

3. 構建搜索架構

  • 爲了降低算法的時間複雜度,採用分層搜索結構,該結構的節點是通過聚類產生的。- 結構分爲兩層,第一層包含K\sqrt{K}個節點,代表圖像patch集Y\pmb{Y}用K-means生成的K\sqrt{K}個聚類的質心,第二層中,第一層的每個節點包含K\sqrt{K}個子節點,代表Y\pmb{Y}用K-means生成的K\sqrt{K}個聚類的質心,並分配給其特徵節點。
  • 也就是說,先找到與樣本patch x\pmb{x} 相似度相近的某個聚類,在根據這個聚類找到與這個聚類相似的K\sqrt{K}個聚類,這K\sqrt{K}個聚類即爲樣本patch x\pmb{x}的近鄰集合D\pmb{D}。### 4. 密度圖重構- 採用基於流形假設的非參數方法來學習權重w\pmb{w},再用w\pmb{w}來計算密度圖xd\pmb{x}_d- w=arg minwJ(wx,D)      s.t.1Tw=1\pmb{w}^* = arg\,\min_{\pmb{w}} \mathcal{J}(\pmb{w|x,D})~~~~~~s.t. \pmb{1^Tw}=1J(wx,D)\mathcal{J}(\pmb{w|x,D})是損失函數,對w\pmb{w}做優化- 那麼xd\pmb{x}_d可以計算爲:xdDd\pmb{x}_d≌\pmb{D}_d

四、M-VOC 算法

  • 基於流形假設,那麼算法的目標是求最小化權重w\pmb{w} (6)w=arg minwxDw22       s.t.1Tw=1\pmb{w}^* = arg\,\min_{\pmb{w}}||\pmb{x}-\pmb{Dw}||_2^2 ~~~~~~~s.t. \pmb{1^Tw}=1\tag{6} - 如果DTD\pmb{D}^T\pmb{D}正定的,那麼w\pmb{w}可以求解爲:(7)w=1Z(DTD)1DTx\pmb{w}^*=\frac{1}{Z}(\pmb{D}^T\pmb{D})^{-1}\pmb{D}^T\pmb{x} \tag{7} ZZ 是歸一化因子。 公式(7)的方法被命名爲M-VOC(LS)。
  • 若圖像塊維度q1>Tq_1>T,那麼DTD\pmb{D}^T\pmb{D}不是正定的,則上述方法不適用,於是在這裏引入正則化項。
    1)energy:爲了產生更穩定的局部權重,w\pmb{w}會受到其energy的限制。
    2)稀疏性:M-VOC受到patch的鄰域大小限制,若T太小,則領域不足以表徵局部幾何形狀,相反,則會傾向不同局部幾何形狀的鄰域。這裏引入局部約束稀疏約束來避免T的選擇。
    3)非負性:對w\pmb{w}負約束可以使相似的圖像塊和圖像密度凸組合。
    4)局部性:當選取鄰域重構x\pmb{x},局部性已經被隱含地假定。- 基於以上四個約束,w\pmb{w}的優化公式可以寫作:w=arg minwxDw22+λ1w22+λ2w1+λ3(w0)\pmb{w}^* = arg\,\min_{\pmb{w}}||\pmb{x}-\pmb{Dw}||_2^2+\lambda_1||\pmb{w}||_2^2+\lambda_2||\pmb{w}||_1+\lambda_3(\pmb{w}-0) (8)s.t.1Tw=1  and  λ1,λ2,λ30s.t. \pmb{1^Tw}=1~~and~~\lambda_1,\lambda_2,\lambda_3\ge0 \tag{8}第二項以低能量強制w\pmb{w},而第三項強制稀疏性以選擇潛在候選。第四項確保w\pmb{w}是正的。- 爲了從(8)中獲得更多的解,通過設置不同的λ1,λ2,λ3\lambda_1,\lambda_2,\lambda_3,可以獲得如下三個變量:
    1)M-VOC(e)令λ2=0,λ3=0\lambda_2=0,\lambda_3=0w=arg minwxDw22+λ1w22\pmb{w}^* = arg\,\min_{\pmb{w}}||\pmb{x}-\pmb{Dw}||_2^2+\lambda_1||\pmb{w}||_2^2 (9)s.t.1Tw=1  and  λ10s.t. \pmb{1^Tw}=1~~and~~\lambda_1\ge0 \tag{9} q1>Tq_1>T,公式(9)可以優化爲:(10)w=1Z(DTD+λ1I)1DTx\pmb{w}^*=\frac{1}{Z}(\pmb{D}^T\pmb{D}+\lambda_1\pmb{I})^{-1}\pmb{D}^T\pmb{x} \tag{10}2)M-VOC(s)令λ1=0,λ3=0\lambda_1=0,\lambda_3=0w=arg minwxDw22+λ2w1\pmb{w}^* = arg\,\min_{\pmb{w}}||\pmb{x}-\pmb{Dw}||_2^2+\lambda_2||\pmb{w}||_1 (11)s.t.1Tw=1  and  λ20s.t. \pmb{1^Tw}=1~~and~~\lambda_2\ge0 \tag{11}可用Lasso方法優化
    3) M-VOC(nn)令λ1=0,λ2=0\lambda_1=0,\lambda_2=0w=arg minwxDw22+λ2w1\pmb{w}^* = arg\,\min_{\pmb{w}}||\pmb{x}-\pmb{Dw}||_2^2+\lambda_2||\pmb{w}||_1 (12)s.t.1Tw=1  and  λ20s.t. \pmb{1^Tw}=1~~and~~\lambda_2\ge0 \tag{12}
    可用二次規劃優化。

五、KM-VOC 算法

  • 圖像塊包含許多變化,如形狀和紋理,並且如以上部分所討論的線性表示可能無法完全捕捉它們潛在的內在關係。本文首先將非線性映射引入到模型的局部幾何建模中,然後應用核方法使其易於處理。
  • 使用非線性映射,則 w\pmb{w}^*變爲:w=arg minwϕ(x)ϕ(D)w22+λw22 \pmb{w}^* = arg\,\min_{\pmb{w}}||\phi({\pmb{x}})-\pmb{\phi{(D)}w}||_2^2+\lambda||\pmb{w}||_2^2 (14)s.t.1Tw=1  and  λ0s.t. \pmb{1^Tw}=1~~and~~\lambda\ge0 \tag{14} 則閉式解爲:(15)w=1Z(ϕ(D)Tϕ(D)+λI)1ϕ(D)Tϕ(x)\pmb{w}^*=\frac{1}{Z}(\phi(\pmb{D})^T\phi(\pmb{D})+\lambda\pmb{I})^{-1}\phi(\pmb{D})^T\phi(\pmb{x}) \tag{15}
  • 用核函數表示非線性映射,則公式(15)可以表示爲 (16)w=1Z(G+λI)1k(D,x)\pmb{w}^*=\frac{1}{Z}(\pmb{G}+\lambda\pmb{I})^{-1}k(\pmb{D,x}) \tag{16} GG是GRAM矩陣,Gi,j=ϕ(yit)Tϕ(yjt)G_{i,j}=\phi(\pmb{y}^t_i)^T\phi(\pmb{y}^t_j), k(D,x)k(\pmb{D,x})是核。
  • 那麼,xd\pmb{x}_d可以被重構爲: (17)xdEk(D,x)\pmb{x}_d≌\pmb{E}k(\pmb{D,x}) \tag{17} 其中E=Dd(G+λI)1\pmb{E}=\pmb{D_d}(\pmb{G}+\lambda\pmb{I})^{-1},爲嵌入矩陣
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章