Peng, Y., Ganesh, A., Wright, J., Xu, W., & Ma, Y. (2012). RASL: Robust alignment by sparse and low-rank decomposition for linearly correlated images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(11), 2233-2246.
本文是這篇 PAMI 期刊論文的筆記，主要是對文中的理論方法進行展開詳解。本人學術水平有限，文中如有錯誤之處，敬請指正。

摘要：此文研究的問題是同時對齊（配準）一批線性相關的圖像，而排除一些破壞（如遮擋）。此文的方法在圖像變換域裏尋找一個最優集，使得變換之後的圖像矩陣可以被分解爲一個錯誤部分的稀疏矩陣，和一個恢復的對齊的低秩的矩陣。此文爲了解決這樣一個具有挑戰性的優化問題，使用了一系列的凸規劃，最小化稀疏矩陣的 ℓ1 範數，以及低秩矩陣的核（nuclear）範數的和，這可以使用有效的可擴展的凸優化技術解決。此文的特點就是在之前的研究基礎上加入了圖像變換對齊（配準），圖像識別和分類的效果更好，所以稱爲 Robust 。

D \circ τ = A + E . (1)


原始圖像 D	對齊之後的圖像 D∘τ

低秩部分 A	誤差部分 E

如圖所示，本文的方法是將一批相似度很高的圖像（不僅是人臉）作爲輸入，首先進行平面的對齊（配準），然後通過本文的 RASL 算法，將它們分解爲低秩部分（相似度非常高）和稀疏誤差部分（圖像之間差異值最大的部分）。

此論文並不是一項開山之作，而是在之前的研究基礎之上的改進版本。首先介紹一下這個研究課題組的 leader: Prof. Yi Ma, Senior Member, IEEE, University of Illinois at Urbana-Champaign. 研究成果都展示在這裏了，論文和代碼都公開了，可以供感興趣的讀者下載，自行研究。
Robust Parameterized Component Analysis 1 算法雖然也擬合一個低階模型，有效地減少了損壞和遮擋的影響。但是這是一個非凸優化問題，沒有理論保證魯棒性和收斂率。最近提出的 Rank-Sparsity 2， RPCA 3 秩最小化已經證明了它確實有可能通過凸優化方法，有效地恢復低秩矩陣。

要想看懂此文之前，還需要一點預備知識，可以學習 Alternating Direction Method 4，Singular Value Thresholding 5，Dual Method 6 和 Augmented Lagrange Multiplier (ALM) Method 7。這些方法思想都和很簡單。

2 圖像對齊通過矩陣的秩最小化

2.1 矩陣的秩作爲衡量圖像的相似度

假設我們有 n 張已經對齊的灰度圖像 I01,⋯,I0n∈Rw×h 。在大部分情況下，這些已經對齊的圖像都是線性相關的（linearly correlated）。如果把圖像列向量化 Rw×h→Rm ，然後把 n 張圖像並列至於一個矩陣中，

A = ˙ [v e c (I 01) | \dots | v e c (I 0 n)] \in R m \times n, (2)

那麼這個矩陣

A 應該是低秩的（low-rank）,這個性質非常的普遍。

2.2 建模非對齊作爲形變

圖像的偏差使得在許多應用中存在困難。上面的低秩矩陣的模型，只要在有一點圖像未對齊的情況下，就會失效。文中提到，由於圖像的3D結構未知，假設圖像的形變只在圖像平面上。於是，可以將圖像未對齊建模爲形變。具體來說，如果 I1 和 I2 是兩個未對齊的圖像，我們假設存在一種可逆變換 g:R2→R2 ，使得

I 2 (x, y) = (I 1 \circ τ) (x, y) = I 1 (τ (x, y)) . (3)

在大多數實際應用中，我們把形變建模爲有限維度組

G （一組參數表達式）,比如相似性

SE(2)×R+ ，2D仿射 Aff(2)，平面單應

GL(3) ，具體可參考 An Invitation to 3-D Vision 8。
把上面兩個模型結合起來：假設

I1,I2,⋯,In 表示

n 張高度相似但是相互沒有對齊的圖像。那麼，存在一組變換參數

τ1,τ2,⋯,τn ，使得

I1∘τ1,⋯,In∘τn 在每一個像素級別上都是對齊的，等價來說，矩陣

D \circ τ = ˙ [v e c (I 01) | \dots | v e c (I 0 n)] \in R m \times n, (4)

有很小的秩，其中

I0i=Ii∘τi, i=1,2,⋯,n 。所以，一批的圖像對齊問題可以用如下的優化問題形式表示

min A, τ r a n k (A) s . t . D \circ τ = A . (5)

2.3 建模損壞和遮擋作爲大、稀疏的誤差

因爲圖像之中會有一些部分被遮擋，或者損壞，但是由於這些誤差出現的區域小，頻率低，我們把它們建模爲稀疏的誤差。除此之外，圖像中還有常見的噪聲，但是此文沒有過多考慮，只假設噪聲是可忽略的。

用 ei 表示對應圖像 Ii 的誤差，那麼 {Ii∘τi−ei}ni=1 就是已經對齊、並處理了損壞和遮擋的圖像。上述的優化形式進而轉化爲

min A, E, τ r a n k (A) s . t . D \circ τ = A + E, | | E | | 0 \leq k . (6)

其中

E=[vec(e1)|⋯|vec(en)] ，

ℓ0 範數計算矩陣中非零元素的個數。用 Lagrangian 形式表達，將最後一個約束加入優化目標函數中，

min A, E, τ r a n k (A) + γ | | E | | 0 s . t . D \circ τ = A + E . (7)

其中

γ 是一個權衡的標量參數。文中將這個問題定義爲 Robust Alignment by Sparse and Low-rank decomposition (RASL)。

在實際圖像中，一般都會有小的加性噪聲，上述問題略作修改

min A, E, τ r a n k (A) + γ | | E | | 0 s . t . | | D \circ τ - A - E | | F \leq ϵ . (8)

其中

ϵ>0 表示噪聲水平。

3 迭代凸優化求解

3.1 凸鬆弛

上面的優化問題雖然很直觀，但是矩陣的秩 rank 和 ℓ0 範數最小化是非凸的，求解非常困難（NP-hard）;並且它們都是離散值函數，如果圖像並不是真的稀疏，解會不穩定。最近，發現如果矩陣 A 的秩如果小，而且 E 的非零元素值也不大，就可以使用凸形式替代它們。具體的，凸鬆弛方法使用了核範數（nuclear norm，矩陣的奇異值之和 ||A||∗=∑min{m,n}i=1σi(A) ）代替秩 rank(⋅) ，用 ℓ1 範數 ∑ij|Eij| 代替 ℓ0 範數，將優化問題轉化爲

min A, E, τ | | A | | * + λ | | E | | 1 s . t . | | D \circ τ - A - E | | F \leq ϵ . (9)

理論中考慮，參數

λ 設爲

C/m−−√ ，C 爲常數，通常設爲 1。新的目標函數雖然不光滑，但是已經是連續的、凸的。

3.2 迭代線性化

min A, E, Δ τ | | A | | * + λ | | E | | 1 s . t . D \circ τ + \sum i = 1 n J i Δ τ ϵ i ϵ T i = A + E . (10)

其中

Δτi=Δτϵi 表示取矩陣

Δτ 中的第

i 列；而

ϵiϵTi 表示取其左邊矩陣的第

i 列（其他列爲 0），但矩陣維度不變。

因爲這個線性近似只在局部有效，不能直接求解 Δτ 。文中使用迭代方式重複求解凸問題，並不斷估計當前的 τ 。

RASL 算法步驟：
INPUT: 圖像 I1,⋯,In∈Rw×h ，形變參數初始值 τ1,⋯,τn 在一個具體的參數組 G 中，權重係數 λ>0 。
WHILE 沒有收斂 DO // 其中收斂的條件是目標函數在連續兩次迭代的改變量小於預先設定的閾值
Step 1: 計算關於形變參數 τ 的 Jacobian 矩陣：

J i \leftarrow \partial \partial ς (v e c ( I i \circ ς ) | | v e c ( I i \circ ς ) | | 2) ∣ ∣ ∣ ς = τ i, i = 1, \dots, n; (11)

Step 2: 變形並歸一化圖像矩陣：

D \circ τ \leftarrow [v e c ( I 1 \circ τ 1 ) | | v e c ( I 1 \circ τ 1 ) | | 2 ∣ ∣ ∣ \dots ∣ ∣ ∣ v e c ( I n \circ τ n ) | | v e c ( I n \circ τ n ) | | 2]; (12)

Step 3(內循環): 求解線性凸優化問題；

(A *, E *, Δ τ *) \leftarrow arg min A, E, Δ τ | | A | | * + λ | | E | | 1 s . t . D \circ τ + \sum i = 1 n J i Δ τ ϵ i ϵ T i = A + E; (13)

Step 4: 更新形變參數

τ←τ+Δτ∗ ；
END WHILE
OUTPUT: 輸出

A∗,E∗,τ∗ 。

3.3 收斂性和最優性證明

涉及的內容太多，這裏不做詳細解釋，可參考原論文。

3.4 増廣 Lagrangian 乘子法

算法中主要的計算代價就是 Step 3，這是一個半正定的線性凸優化問題。此文使用快速的一階方法，増廣 Lagrangian 乘子法。首先定義 h(A,E,Δτ)=D∘τ+∑ni=1JiΔτϵiϵTi−A−E ，我們構造一個 Lagrangian 函數

L μ (A, E, Δ τ, Y) = | | A | | * + λ | | E | | 1 + < Y, h (A, E, Δ τ) > + μ 2 | | h (A, E, Δ τ) | | 2 F, (14)

其中

Y∈Rm×n 是 Lagrange 乘子矩陣，

<⋅,⋅> 是矩陣內積（

<X,Y>=trace(XTY) ），

||⋅||F 是 Frobenius 範數，

μ 是一個標量（非變量），設爲一個單調遞增的序列，隨着迭代，值不斷變大。只要合適的選擇 Lagrange 乘子矩陣

Y 和足夠大的常數

μ ，那麼増廣 Lagrangian 函數可以獲得與原問題一致的最小解。増廣 Lagrangian 算法通過迭代地最小化求解

(A k + 1, E k + 1, Δ τ k + 1) Y k + 1 = arg min A, E, Δ τ L μ k (A, E, Δ τ, Y k), = Y k + μ k h (A k + 1, E k + 1, Δ τ k + 1) .

直接最小化多個參數的 Lagrangian 函數很困難，那麼採用近似求解的方式，即每一次分別最小化一個變量，而固定其他變量，

A k + 1 E k + 1 Δ τ k + 1 = arg min A L μ k (A, E k, Δ τ k, Y k), = arg min E L μ k (A k + 1, E, Δ τ k, Y k), = arg min Δ τ L μ k (A k + 1, E k + 1, Δ τ, Y k) . (15) (16) (17)

迭代的每一步都可以求出閉式解，計算的效率很高。爲了更清楚的說明解，還要定義軟閾值（soft-thresholding）或收縮（shrinkage）操作，

S α (x) = s i g n (x) \cdot max {| x | - α, 0}, (18)

其中

α>0 是設定的一個閾值。這是一個標量函數，對於矩陣或向量操作都是 elementwise 的。結合軟閾值函數，給出求解的迭代步驟

RASL 內循環：
INPUT: (A0,E0,Δτ0)∈Rm×n,Rm×n,Rp×n ，權重係數 λ>0 。
WHILE 沒有收斂 DO // 其中收斂的條件是 h(Ak+1,Ek+1,Δτk+1) 小於預先設定的閾值，或迭代次數達到最大

(U, Σ A k + 1 E k + 1 Δ τ k + 1 Y k + 1, V) = s v d (D \circ τ + \sum i = 1 n J i Δ τ k ϵ i ϵ T i + 1 μ k Y k - E k); = U S 1 μ k (Σ) V T; = S λ μ k (D \circ τ + \sum i = 1 n J i Δ τ k ϵ i ϵ T i + 1 μ k Y k - A k + 1); = \sum i = 1 n J † i (A k + 1 + E k + 1 - D \circ τ - 1 μ k Y k) ϵ i ϵ T i; = Y k + μ k h (A k + 1, E k + 1, Δ τ k + 1) . (19) (20) (21) (22) (23)

// * 中間3步的詳細的推導在 Appendix *
END WHILE
OUTPUT: 輸出最優解

A∗,E∗,τ∗ 。

其中 Sα(⋅) 就是爲了近似代替優化求解過程中的 ||A||∗+λ||E||1 而加入的；也就是說，在梯度求解 Ak+1,Ek+1,Δτk+1 的過程中，並沒有考慮這兩項，而是用減去 Ak 的部分（較小的）奇異值 S1/μk(Σ) 和減去 Ek 的較小的元素值 Sλ/μk(Ek) ，來代替直接求閉式解表達式。

實驗結果表明，

該算法收斂性非常好，速度也比此論文作者之前的方法 Accelerated proximal gradient (APG) 9 快 5~10 倍左右。
儘管増廣 Lagrangian 乘子法的收斂性已經在優化的文獻中都已經給出證明，但是沒有證明它的近似方法（本文采用的迭代優化每一個變量）也能收斂。
困難就在於這裏有三項變量在交替最小化，而 Alternating Direction Method of Multipliers 方法交替優化兩項變量已經在優化文獻中給出了證明。
然而 Yuan et al. 10 表明三項變量交替優化過程中收斂在實際上和理論上有差距，而且收斂速度比較慢。

總之，目前要嚴格證明此論文方法的收斂性還很困難。

3.5 實現細節

μk=ρkμ0 ，其中 ρ 和 μ0 分別設置爲 1.25 和 1.25/||D||spec 。RASL 算法的內循環停止的閾值爲 10−7 ，外循環停止的閾值爲 10−2 。內循環算法中有一點小難點就是要計算 J† ，文中使用了 QR 分解，Ji=QiRi∈Rm×p （論文中爲 RTi ，應該是錯了），然後使用正交的 Qi∈Rm×p 代替 Ji 進行計算，相對應的，輸出的結果也爲 Δτ′i=RiΔτi 。因爲 Ri∈Rp×p 是可逆的，所以 Δτi=R−1iΔτ′i 可以很輕易地計算得到。雖然這在理論上不影響收斂性，但是在實驗中可以獲得更穩定的結果。

實驗驗證

知道了本論文的理論之後，去看實驗已經沒有什麼難處了，本論文的實驗有好幾個，但是給人印象是沒有很多與其它論文的定量對比結果。這裏不再一一講述。

Appendix

這是本人根據對論文的理解，自己推導了 Ak+1,Ek+1,Δτk+1 的迭代公式，首先給出

h (A, E, Δ τ) \partial h ( A , E k , Δ τ k ) \partial A \partial h ( A k + 1 , E , Δ τ k ) \partial E \partial h ( A k + 1 , E k + 1 , Δ τ ) \partial Δ τ = D \circ τ + \sum i = 1 n J i Δ τ ϵ i ϵ T i - A - E, = - 1, = - 1, = \sum i = 1 n (ϵ i ϵ T i) \otimes J T i = \sum i = 1 n J T i . (24)

其中

⊗ 表示 Kronecker 積。

1. 求解 Ak+1 ，

求當梯度爲 0 時，A∗ 的值，（由於 ||A||∗+λ||E||1 非光滑，求梯度時不考慮）

\partial \partial A L μ k (A, E k, Δ τ k, Y k) = \partial \partial A {t r (Y T k h (A, E k, Δ τ k)) + μ k 2 | | h (A, E k, Δ τ k) | | 2 F} = \partial h ( A , E k , Δ τ k ) \partial A Y k + \partial h ( A , E k , Δ τ k ) \partial A μ k h (A, E k, Δ τ k), - Y k - μ k (D \circ τ + \sum i = 1 n J i Δ τ k ϵ i ϵ T i - A * - E k) = 0, A * = D \circ τ + \sum i = 1 n J i Δ τ k ϵ i ϵ T i + 1 μ k Y k - E k, (U, Σ *, V) = s v d (A *), A k + 1 = U S 1 μ k (Σ *) V T . (25)

證畢。

2. 求解 Ek+1 ，

求當梯度爲 0 時，E∗ 的值，（由於 ||A||∗+λ||E||1 非光滑，求梯度時不考慮），與求解 Ak+1 基本一致，

\partial \partial E L μ k (A k + 1, E, Δ τ k, Y k) = \partial \partial E {t r (Y T k h (A k + 1, E, Δ τ k)) + μ k 2 | | h (A k + 1, E, Δ τ k) | | 2 F} = \partial h ( A k + 1 , E , Δ τ k ) \partial E Y k + \partial h ( A k + 1 , E , Δ τ k ) \partial E μ k h (A k + 1, E, Δ τ k), - Y k - μ k (D \circ τ + \sum i = 1 n J i Δ τ k ϵ i ϵ T i - A k + 1 - E *) = 0, E * = D \circ τ + \sum i = 1 n J i Δ τ k ϵ i ϵ T i + 1 μ k Y k - A k + 1, E k + 1 = S λ μ k (E *) . (26)

證畢。

3. 求解 Δτk+1 ，

求當梯度爲 0 時，Δτ∗ 的值，

\partial \partial Δ τ L μ k (A k + 1, E k + 1, Δ τ, Y k) = \partial \partial Δ τ {t r (Y T k h (A k + 1, E k + 1, Δ τ)) + μ k 2 | | h (A k + 1, E k + 1, Δ τ) | | 2 F} = \partial h ( A k + 1 , E k + 1 , Δ τ ) \partial Δ τ Y k + \partial h ( A k + 1 , E k + 1 , Δ τ ) \partial Δ τ μ k h (A k + 1, E k + 1, Δ τ), (\sum i = 1 n J T i) Y k + (\sum i = 1 n J T i) μ k (D \circ τ + \sum i = 1 n J i Δ τ * ϵ i ϵ T i - A k + 1 - E k + 1) = 0, 1 μ k Y k + D \circ τ + \sum i = 1 n J i Δ τ * ϵ i ϵ T i - A k + 1 - E k + 1 = 0, \sum i = 1 n J i Δ τ * ϵ i ϵ T i = A k + 1 + E k + 1 - 1 μ k Y k - D \circ τ, J i Δ τ * i ϵ T i = (A k + 1 + E k + 1 - 1 μ k Y k - D \circ τ) ϵ i ϵ T i, Δ τ * i ϵ T i = J † i (A k + 1 + E k + 1 - 1 μ k Y k - D \circ τ) ϵ i ϵ T i, Δ τ * = \sum i = 1 n Δ τ * i ϵ T i = \sum i = 1 n J † i (A k + 1 + E k + 1 - 1 μ k Y k - D \circ τ) ϵ i ϵ T i, Δ τ k + 1 = Δ τ * = \sum i = 1 n J † i (A k + 1 + E k + 1 - D \circ τ - 1 μ k Y k) ϵ i ϵ T i . (27)

證畢。

E. Cande`s, X. Li, Y. Ma, and J. Wright, “Robust Principal Component Analysis?” J. ACM, vol. 58, no. 3, pp. 1-37, 2011. ↩
V. Chandrasekaran, S. Sanghavi, P. Parrilo, and A. Willsky,“Rank-Sparsity Incoherence for Matrix Decomposition,” SIAM J. Optimization, vol. 21, no. 2, pp. 572-596, 2011. ↩
E. Cande`s, X. Li, Y. Ma, and J. Wright, “Robust Principal Component Analysis?” J. ACM, vol. 58, no. 3, pp. 1-37, 2011. ↩
Yuan, Xiaoming, and Junfeng Yang. “Sparse and low-rank matrix decomposition via alternating direction methods.” preprint 12 (2009). ↩
E. Cande`s, J. Cai, and T. Shen, “A Singular Value Thresholding Algorithm for Matrix Completion,” SIAM J. Optimization, vol. 20, no. 4, pp. 1956-1982, 2010. ↩
Lin, Z., Ganesh, A., Wright, J., Wu, L., Chen, M., & Ma, Y. (2009). Fast convex optimization algorithms for exact recovery of a corrupted low-rank matrix. Computational Advances in Multi-Sensor Adaptive Processing (CAMSAP), 61. ↩
Z. Lin, M. Chen, L. Wu, and Y. Ma, “The Augmented Lagrange Multiplier Method for Exact Recovery of Corrupted Low-Rank Matrices,” Technical Report UILU-ENG-09-2215, Univ. of Illinois at Urbana-Champaign, 2009. ↩
Y. Ma, S. Soatto, J. Kosecka´, and S.S. Sastry, An Invitation to 3-D Vision. Springer, 2004. ↩
K. Toh and S. Yun, “An Accelerated Proximal Gradient Algorithms for Nuclear Norm Regularized Least Squares Problems,”Pacific J. Optimization, vol. 6, pp. 615-640, 2010. ↩
X. Yuan and M. Tao, “Recovering Low-Rank and Sparse Components of Matrices from Incomplete and Noisy Observations,”SIAM J. Optimization, vol. 21, no. 1, pp. 57-81, 2011. ↩

筆記 RASL: Robust Alignment by Sparse and Low-Rank Decomposition for Linearly Correlated Images