矩陣論(一):廣義逆矩陣(上)

矩陣論專欄:專欄(文章按照順序排序)

本文以線性代數知識爲基礎。關於線代知識,如一些基本的秩(不)等式、零矩陣的判定條件等,可參考下面幾篇博客。
矩陣論(零):線性代數基礎知識整理(1)——逆矩陣、初等變換、滿秩分解
矩陣論(零):線性代數基礎知識整理(2)——矩陣的秩與向量組的秩
矩陣論(零):線性代數基礎知識整理(3)——矩陣的秩與向量組的秩
矩陣論(零):線性代數基礎知識整理(4)——線性空間與線性變換
矩陣論(零):線性代數基礎知識整理(5)——特徵值與相似

廣義逆矩陣的部分主要包括以下內容:

  • 左逆與右逆
    • 定義
    • 左逆、右逆存在的條件
  • {1}逆
    • Ax=yAx=y的求解引入{1}逆
    • {1}逆的通式
    • 用{1}逆討論Ax=yAx=y以及AXB=DAXB=D的求解
  • PM逆
    • 定義
    • PM逆的性質(存在性、唯一性、秩、計算性質、列空間、零空間)
    • 用PM逆討論Ax=yAx=y以及AXB=DAXB=D的解的存在唯一性
    • PM逆的計算方法
  • {1,4}逆
    • 從極小範數解問題引入{1,4}逆
    • A{1,4}={MMAAH=AH}={MMA=A+A}A\{1,4\}=\{M|MAA^H=A^H\}=\{M|MA=A^+A\}
    • 利用{1,4}逆解決極小範數解的存在唯一性
  • {1,3}逆
    • 從最小二乘問題引入{1,3}逆
    • A{1,3}={MAHAM=AH}={MAM=AA+}A\{1,3\}=\{M|A^HAM=A^H\}=\{M|AM=AA^+\}
    • 利用{1,4}逆解決最小二乘問題以及最小二乘解與正規方程組的聯繫
  • 極小範數最小二乘解問題
  • 總結
    • 線性迴歸問題介紹

因爲內容比較多,目錄中的內容分爲上、下兩篇博客來寫。其中,上(本篇)介紹左逆右逆、{1}逆以及PM逆,下篇介紹{1,4}逆、{1,3}逆及其之後的內容定理1-20在本文中,定理21-31在下篇博客中。
下篇博客鏈接:鏈接

【符號說明】
文中所用向量範數均指Frobenius範數/l2l_2範數。
FF表示數域,Fm×nF^{m\times n}是指元素在數域FF內的m×nm\times n矩陣的集合,Frm×nF^{m\times n}_r是指Fm×nF^{m\times n}中所有秩爲rr的矩陣。QQRRCC分別表示有理數域、實數域和複數域,本文所討論的數域僅限於這三種數域。單位矩陣用II表示,nn階單位矩陣用InI_n表示。
AHA^H是指AA的共軛轉置。注意AFm×n\forall A\in F^{m\times n},有AHFn×mA^H\in F^{n\times m},這是因爲域FFF=QRCF=Q或R或C)中的數取共軛後肯定還在FF中,例如實數的共軛是其自身。
我們用ii表示虛數單位,用Re{}Re\{\}表示複數的實部,Im{}Im\{\}表示複數的虛部。
對矩陣AAR(A)R(A)N(A)N(A)分別表示AA的列空間和零空間。


左逆矩陣與右逆矩陣

我們知道,只有方陣纔有逆矩陣,且可逆方陣對方陣是有限制條件的,只有行列式不爲零的方陣纔可逆。可逆方陣給我們解線性方程組帶來了很大的方便:設Ax=yAx=y是關於x的方程,若係數矩陣A是可逆方陣,則有唯一解x=A1yx=A^{-1}y,解的形式非常簡單。然而對於一般的m×nm\times{n}係數矩陣A,有沒有簡潔的辦法來求解這樣的線性方程組呢?按照一般解方程的思路,如果有一個矩陣L,當我們用L左乘Ax=yAx=y的兩端時(將得到LAx=LyLAx=Ly),能夠恰好抵消掉A(也就是說LAx=xLAx=x),得到x=Lyx=Ly,那麼就“似乎”找到了解(爲什麼是似乎呢?這個後面再說)。什麼時候LAx=xLAx=x成立呢?考慮一種最簡單的情形:LA=ILA=I,這就引出了左逆矩陣的概念:

  • 定義:設AFm×nA\in F^{m\times n},若存在LFn×mL\in F^{n\times m},滿足LA=InLA=I_n,則稱LLAA的一個左逆矩陣

自然先看一下左逆矩陣存在的條件是什麼:

  • 定理1:設AFm×nA\in F^{m\times n},則AA的左逆矩陣存在的充要條件爲AA列滿秩
    證明:
    必要性:若存在LFn×mL\in F^{n\times m},滿足LA=InLA=I_n,根據秩不等式有n=r(In)=r(LA)r(A)n=r(I_n)=r(LA)\leqslant{r(A)},又r(A)nr(A)\leqslant n,故r(A)=nr(A)=n,即AA是列滿秩的。
    充分性:若AA是列滿秩的,根據秩等式r(AHA)=r(A)=nr(A^HA)=r(A)=n知,AHAA^HA是滿秩方陣,即AHAA^HA可逆。設L=(AHA)1AHL=(A^HA)^{-1}A^H,驗證LA=(AHA)1AHA=ILA=(A^HA)^{-1}A^HA=I,即LLAA的一個左逆矩陣,因此A的左逆矩陣存在。
    【注】(AHA)1AH(A^HA)^{-1}A^H稱爲列滿秩矩陣AA的左僞逆矩陣

這說明並非所有矩陣都有左逆矩陣,只有列滿秩矩陣纔可左逆。類比左逆矩陣,我們有右逆矩陣的概念:

  • 定義:設AFm×nA\in F^{m\times n},若存在RFn×mR\in F^{n\times m},滿足AR=ImAR=I_m,則稱RRAA的一個右逆矩陣
  • 定理2:設AFm×nA\in F^{m\times n},則AA的右逆矩陣存在的充要條件爲AA行滿秩

右逆矩陣的分析跟左逆矩陣是類似的。AH(AAH)1A^H(AA^H)^{-1}稱爲行滿秩矩陣AA的右僞逆矩陣。

現在回到線性方程組的解的問題上來。雖然列滿秩矩陣AA必有左逆LL,但是這意味着Ax=yAx=y的解就是x=Lyx=Ly嗎?實際上,x=Lyx=LyAx=yAx=y的解還應該滿足一個條件:將x=Lyx=Ly代入Ax=yAx=y,等式依然成立,也就是說應有ALy=yALy=y。不幸的是,左逆矩陣並不能滿足這個條件,請看如下反例:
A=[110100]A=\begin{bmatrix}1&1\\0&1\\0&0\end{bmatrix},則可計算出A的左僞逆L=[110010]L=\begin{bmatrix}1&-1&0\\0&1&0\end{bmatrix}AL=[100010000]AL=\begin{bmatrix}1&0&0\\0&1&0\\0&0&0\end{bmatrix},對於y=[001]y=\begin{bmatrix}0\\0\\1\end{bmatrix}ALy=0yALy=0\neq y
這說明左逆、右逆並不能用來表示一般線性方程組的解,雖然剛開始它們看上去是可行的。

將左(右)逆矩陣的定義和逆矩陣的定義進行對比可以發現,前者的限制不如後者的限制嚴格,因此它們是一類僞逆。


{1}逆

我們討論了左逆、右逆的概念及其存在的條件,它們並不是求解線性方程組的有力工具。現在我們從一般的線性方程組出發,探究什麼樣的矩陣(或者說什麼樣的僞逆)可以用來表達線性方程組的解。
對於一般的線性方程組Ax=yAx=y,如果它有解,按照奧卡姆剃刀原理,我們假定它一定有x=Byx=By這種形式的解。現在我們來探究一下這樣的矩陣BB是什麼:

  • 定理3:設AFm×nA\in{F^{m\times{n}}}BFn×mB\in{F^{n\times{m}}},則如下兩命題等價:
    (1)yFm\forall{y}\in{F^m},若關於xx的線性方程組Ax=yAx=y有解,則x=Byx=By是它的一個解
    (2)ABA=AABA=A
    證明:
    (1)\Rightarrow(2):任取zFmz\in{F^m},令y=Azy=Az,線性方程組Ax=yAx=y必有解(顯然zz就是它的一個解)。根據命題(1),x=By=BAzx=By=BAz也是它的一個解。把這個解代入原方程,得到ABAz=AzABAz=Az。注意,任取zFmz\in{F^m},我們都得到了ABAz=AzABAz=Az,也就是(ABAA)z=0(ABA-A)z=0。那麼就能判定ABAA=OABA-A=O,即ABA=AABA=A
    (1)\Leftarrow(2):yFm\forall{y}\in{F^m},若線性方程組Ax=yAx=y有解,設x0x_0是它的一個解,則有y=Ax0y=Ax_0。若ABA=AABA=A,則ABy=ABAx0=Ax0=yABy=ABAx_0=Ax_0=y,所以x=Byx=By也是它的一個解。於是命題(1)成立。

上述定理說明,我們期望找到的矩陣BB其實就是滿足ABA=AABA=A的矩陣BB,我們把滿足該條件的矩陣B稱爲A的一個廣義逆矩陣,更確切地,B稱爲A的一個{1}逆(還有其他類型的廣義逆矩陣,見後文):

  • 定義:設AFm×nA\in F^{m\times n},若存在BFn×mB\in F^{n\times m},滿足ABA=AABA=A,則稱BBAA的一個{1}逆,記作B=A(1)B=A^{(1)}。通常,將A的全體{1}逆的集合寫作A{1}A\{1\}

定理3只是告訴我們BB應該滿足什麼條件,沒告訴我們BB是否存在。下面的定理對此作出了肯定的回答:

  • 定理4:設AFrm×nA\in{}F^{m\times{n}}_r。若r=0r=0,則A{1}=Fn×mA\{1\}=F^{n\times{m}};若r>0r\gt{0},根據秩標準形定理知存在可逆矩陣PPQQ使得PAQ=[IrOOO]PAQ=\begin{bmatrix}I_r&O\\O&O\end{bmatrix},此時我們斷言
    A{1}={Q[IrL12L21L22]P|L12Fr×(mr),L21F(nr)×r,L22F(nr)×(mr)}A\{1\}=\left\{Q\begin{bmatrix}I_r&L_{12}\\L_{21}&L_{22}\end{bmatrix}P\middle|L_{12}\in{F^{r\times{(m-r)}}},L_{21}\in{F^{(n-r)\times{r}}},L_{22}\in{F^{(n-r)\times{}(m-r)}}\right\}
    證明:只證r>0r\gt{0}的情況。由於A=P1[IrOOO]Q1A=P^{-1}\begin{bmatrix}I_r&O\\O&O\end{bmatrix}Q^{-1},任取X=Q[IrL12L21L22]PX=Q\begin{bmatrix}I_r&L_{12}\\L_{21}&L_{22}\end{bmatrix}P,計算可得AXA=AAXA=A,故XA{1}X\in{A\{1\}}。任取A(1)A{1}A^{(1)}\in{A\{1\}},設Q1A(1)P1=[L11L12L21L22]Q^{-1}A^{(1)}P^{-1}=\begin{bmatrix}L_{11}&L_{12}\\L_{21}&L_{22}\end{bmatrix},則A(1)=Q[L11L12L21L22]PA^{(1)}=Q\begin{bmatrix}L_{11}&L_{12}\\L_{21}&L_{22}\end{bmatrix}P,由AA(1)A=AAA^{(1)}A=A可得[IrOOO][L11L12L21L22][IrOOO]=[IrOOO]\begin{bmatrix}I_r&O\\O&O\end{bmatrix}\begin{bmatrix}L_{11}&L_{12}\\L_{21}&L_{22}\end{bmatrix}\begin{bmatrix}I_r&O\\O&O\end{bmatrix}=\begin{bmatrix}I_r&O\\O&O\end{bmatrix},進一步計算有L11=IrL_{11}=I_r,即A(1)=Q[IrL12L21L22]PA^{(1)}=Q\begin{bmatrix}I_r&L_{12}\\L_{21}&L_{22}\end{bmatrix}P。得證。

上述定理不僅證明了任意矩陣都有{1}逆,還給出了{1}逆的求法。對A進行初等變換化爲等價標準形(秩標準形),求出變換對應的可逆矩陣P、Q,就可以得到A{1}A\{1\}

  • 推論:設AFrm×nA\in{}F^{m\times{n}}_r,則A的{1}逆唯一的充要條件爲r=m=nr=m=n
    證:
    定理4告訴我們AA的{1}逆都具有Q[IrL12L21L22]PQ\begin{bmatrix}I_r&L_{12}\\L_{21}&L_{22}\end{bmatrix}P這種形式,其中PPQQ可逆。要使AA的{1}逆唯一,必須使自由變量L12L21L22L_{12}、L_{21}、L_{22}消失,顯然只有r=m=nr=m=n才能做到這一點。
    【注】當A的{1}逆唯一時,A的{1}逆爲QPQP。根據式PAQ=IPAQ=I可得A1=(P1Q1)1=QPA^{-1}=(P^{-1}Q^{-1})^{-1}=QP,因此A的{1}逆就是A1A^{-1}

回到求解線性方程組的問題上來。我們已經知道任取A的一個{1}逆A(1)A^{(1)}, 若Ax=yAx=y有解,則x=A(1)yx=A^{(1)}y一定是它的一個解(定理3)。那什麼條件下Ax=yAx=y纔有解?它的通解又是什麼?(這裏“通解”是指要能夠表達出Ax=yAx=y的所有解)
如果我們將x=A(1)yx=A^{(1)}y代入原方程,就得到AA(1)y=yAA^{(1)}y=y,這是在原方程有解的條件下得到的結論。然而,如果AA(1)y=yAA^{(1)}y=y,這不就說明x=A(1)yx=A^{(1)}y是原方程的一個解嗎?這就得到了線性方程組有解的充要條件。

  • 定理5:線性方程組Ax=yAx=y有解的充要條件是存在A的一個{1}逆A(1)A^{(1)}使得AA(1)y=yAA^{(1)}y=y
    證明:
    必要性:若Ax=yAx=y有解,則y=Ax=AA(1)Ax=AA(1)yy=Ax=AA^{(1)}Ax=AA^{(1)}y
    充分性:若AA(1)y=yAA^{(1)}y=y,則x=A(1)yx=A^{(1)}y是原方程的一個解,故原方程有解。
  • 定理6:線性方程組Ax=yAx=y有解的充要條件是任意A的一個{1}逆A(1)A^{(1)}都有AA(1)y=yAA^{(1)}y=y
    證明:同上。

關於Ax=yAx=y的通解,有以下結論。(這裏“通解”是指要能夠表達出Ax=yAx=y的所有解)

  • 定理7:若Ax=yAx=y有解,則任取A的一個{1}逆A(1)A^{(1)}x=A(1)y+(IA(1)A)z,zFnx=A^{(1)}y+(I-A^{(1)}A)z,z\in{F^n}都是Ax=yAx=y的通解
    證明:
    x=A(1)y+(IA(1)A)z,zFnx=A^{(1)}y+(I-A^{(1)}A)z,z\in{F^n}代入原方程,可得Ax=AA(1)y+A(IA(1)A)z=y+(AAA(1)A)z=yAx=AA^{(1)}y+A(I-A^{(1)}A)z=y+(A-AA^{(1)}A)z=y,可見x=A(1)y+(IA(1)A)z,zFnx=A^{(1)}y+(I-A^{(1)}A)z,z\in{F^n}都是原方程的解。
    任取原方程的一個解x0x_0,有Ax0=yAx_0=y成立。令z=x0z=x_0,則x=A(1)y+(IA(1)A)z=A(1)y+(IA(1)A)x0=x0+A(1)yA(1)y=x0\begin{aligned}x&=A^{(1)}y+(I-A^{(1)}A)z\\&=A^{(1)}y+(I-A^{(1)}A)x_0\\&=x_0+A^{(1)}y-A^{(1)}y\\&=x_0\end{aligned}可見x=A(1)y+(IA(1)A)z,zFnx=A^{(1)}y+(I-A^{(1)}A)z,z\in{F^n}還包含了原方程的所有解。得證。

上述定理說明,A的任意一個{1}逆都能完整表達出Ax=yAx=y的所有解,這意味着{1}逆是解線性方程組的一個完備的工具。通解的形式x=A(1)y+(IA(1)A)z,zFnx=A^{(1)}y+(I-A^{(1)}A)z,z\in{F^n}不光可以用來求出方程組的解(只要按照定理4的方法求出一個AA的一個{1}\{1\}逆即可),還說明了Ax=yAx=y的解的結構是什麼樣子的。通解中的第一項A(1)yA^{(1)}y,是Ax=yAx=y的一個特解。第二項(IA(1)A)z(I-A^{(1)}A)zzFnz\in{F^n},實際上是齊次線性方程組Ax=0Ax=0的通解(對Ax=0Ax=0應用一下定理7即知)。這就回到了我們學習線性代數時熟悉的結論:非齊次方程的通解=非齊次方程的特解+對應齊次方程的通解。此外,根據列空間和零空間的定義,這也說明了R(IA(1)A)=N(A)R(I-A^{(1)}A)=N(A)成立

原本到這裏問題就已經結束了,但其實還有個疑問,細心的朋友可能已經發現,既然A的任意一個(而不僅僅是某一個){1}逆都能表達出Ax=yAx=y的所有解,那麼這裏必然蘊含着某些等量關係在裏面。例如,如果我們取AA的兩個不同的{1}逆A1A_1A2A_2,並且取一z0Fnz_0\in F^n,那麼我們知道x0=A1y+(IA1A)z0x_0=A_1y+(I-A_1A)z_0Ax=yAx=y的一個解(如果這個方程組有解的話),而且我們可以斷定A2A_2也能表達出這個解,即一定存在某個z1Fnz_1\in F^n使得x0=A2y+(IA2A)z1x_0=A_2y+(I-A_2A)z_1。這就有A1y+(IA1A)z0=A2y+(IA2A)z1A_1y+(I-A_1A)z_0=A_2y+(I-A_2A)z_1成立了。如果我們取的z0z_0恰好是零向量,那麼就有A1y=A2y+(IA2A)z1A_1y=A_2y+(I-A_2A)z_1。如果我們把A1A_1換成別的{1}逆,那麼我們也能得到類似這樣的關係。
我們發現,給定AA的一個{1}逆GG,集合S={A(1)yA(1)A{1}}S=\{A^{(1)}y|A^{(1)}\in A\{1\}\}中的任一向量都可以被GG表達出來,即存在zFnz\in F^n使A(1)y=Gy+(IGA)zA^{(1)}y=Gy+(I-GA)z成立,而SS中的向量不是別的,就是Ax=yAx=y的解。如果可以被GG表達出來的向量都在SS裏面呢?那不就意味着SS就是Ax=yAx=y的解集,x=A(1)y,A(1)A{1}x=A^{(1)}y,A^{(1)}\in A\{1\}Ax=yAx=y的通解嗎?
y=0y=0時,S={0}S=\{0\},此時只有當A列滿秩(即Ax=0Ax=0只有零解時),SS才包含Ax=yAx=y的所有解。那麼當y0y\neq0時呢?在解決這個問題之前,我們先將{1}逆這個工具運用到更一般的矩陣方程上。

  • 定理8:關於Xm×nX_{m\times{n}}的矩陣方程AXB=DAXB=D有解的充要條件爲,存在(或任意)A的一個{1}逆A(1)A^{(1)}和B的一個{1}逆B(1)B^{(1)}滿足D=AA(1)DB(1)BD=AA^{(1)}DB^{(1)}B;任意給定A的一個{1}逆A(1)A^{(1)}和B的一個{1}逆B(1)B^{(1)},若AXB=DAXB=D有解,則其通解爲X=A(1)DB(1)+YA(1)AYBB(1),YFm×nX=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)},Y\in{F^{m\times{n}}}
    證明:
    AXB=DAXB=D有解,則D=AXB=AA(1)AXBB(1)B=AA(1)DB(1)BD=AXB=AA^{(1)}AXBB^{(1)}B=AA^{(1)}DB^{(1)}BD=AA(1)DB(1)BD=AA^{(1)}DB^{(1)}B,則X=A(1)DB(1)X=A^{(1)}DB^{(1)}是原方程的一個解。
    X=A(1)DB(1)+YA(1)AYBB(1)X=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)}代入原方程得AXB=AA(1)DB(1)B+AYBAA(1)AYBB(1)B=D+AYBAYB=D\begin{aligned}AXB&=AA^{(1)}DB^{(1)}B+AYB-AA^{(1)}AYBB^{(1)}B\\&=D+AYB-AYB\\&=D\end{aligned}X=A(1)DB(1)+YA(1)AYBB(1)X=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)}都是原方程的解。
    任取原方程的一個解X0X_0,則AX0B=DAX_0B=D,令Y=X0Y=X_0,則X=A(1)DB(1)+YA(1)AYBB(1)=A(1)DB(1)+X0A(1)AX0BB(1)=X0+A(1)DB{1}A(1)DB(1)=X0\begin{aligned}X&=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)}\\&=A^{(1)}DB^{(1)}+X_0-A^{(1)}AX_0BB^{(1)}\\&=X_0+A^{(1)}DB^{\{1\}}-A^{(1)}DB^{(1)}\\&=X_0\end{aligned}X=A(1)DB(1)+YA(1)AYBB(1)X=A^{(1)}DB^{(1)}+Y-A^{(1)}AYBB^{(1)}還包含了原方程的所有解。得證。

現在,我們考慮關於M的矩陣方程AMA=AAMA=A,解該方程,得到如下結論:

  • 定理9:給定Am×nA_{m\times{n}}的一個{1}逆GG,則式M=G+YGAYAG,YFm×nM=G+Y-GAYAG,Y\in{F^{m\times{n}}}給出了A的全部{1}逆
    證明:解方程AMA=AAMA=A,可得通解M=GAG+ZGAZAG,ZFm×nM=GAG+Z-GAZAG,Z\in{F^{m\times{n}}}作變量代換Y=ZGY=Z-G,得M=GAG+Y+GGAYAGGAGAG=G+Y+GAGGAGGAYAG=G+YGAYAG,YFm×n\begin{aligned}M&=GAG+Y+G-GAYAG-GAGAG\\&=G+Y+GAG-GAG-GAYAG\\&=G+Y-GAYAG,Y\in{F^{m\times{n}}}\end{aligned}得證。

這說明A的所有{1}逆都可以用A的某個給定的{1}逆表達出來。現在回到問題:集合{MyMA{1}}\{My|M\in{A\{1\}}\}是否包含了Ax=yAx=y的所有解?有了上面的結論的鋪墊,我們現在可以解決這個問題:

  • 定理10:若Ax=y,y0Ax=y,y\neq0有解,則其通解是x=My,MA{1}x=My,M\in{A\{1\}}
    證明:
    設G是A的一個{1}逆,則由Ax=yAx=y有解知AGy=yAGy=y,且原方程的通解是x=Gy+(IGA)zx=Gy+(I-GA)z。設M是A的任意一個{1}逆,則存在矩陣Y,使得M=G+YGAYAGM=G+Y-GAYAG。問題轉化爲,對任意zFnz\in{F^n},能否找到Y,使得Gy+(IGA)z=My=Gy+YyGAYAGy=Gy+(IGA)Yy\begin{aligned}Gy+(I-GA)z&=My\\&=Gy+Yy-GAYAGy\\&=Gy+(I-GA)Yy\end{aligned}成立。即是否存在Y使得(IGA)(Yyz)=0(I-GA)(Yy-z)=0。顯然,只要找到Y滿足Yy=zYy=z即可。因爲y0y\neq0,故容易驗證y(1)=(yHy)1yHy^{(1)}=(y^Hy)^{-1}y^H是y的一個{1}逆,且滿足y(1)y=1y^{(1)}y=1。因爲zy(1)y=zzy^{(1)}y=z,故關於Y的矩陣方程Yy=zYy=z有解,且Y=zy(1)Y=zy^{(1)}就是它的一個解。綜上,找到了Y,即找到了M使得My=Gy+(IGA)zMy=Gy+(I-GA)z,得證。

實際上,證明可以大大簡化:設x0x_0Ax=y,y0Ax=y,y\neq 0的一個解,G是A的一個{1}逆,則有x0=Gy+(IGA)x0=Gy+(IGA)x0y(1)y=(G+(IGA)x0y(1))y\begin{aligned}x_0&=Gy+(I-GA)x_0\\&=Gy+(I-GA)x_0y^{(1)}y\\&=(G+(I-GA)x_0y^{(1)})y\end{aligned}其中,y(1)=(yHy)1yHy^{(1)}=(y^Hy)^{-1}y^H。根據{1}逆的定義可以驗證G+(IGA)x0y(1)G+(I-GA)x_0y^{(1)}是A的一個{1}逆,這就說明Ax=yAx=y的解都具備x=My,MA{1}x=My,M\in{A\{1\}}這種形式。而將x=My,MA{1}x=My,M\in{A\{1\}}代入Ax=yAx=y發現等式依然成立。故定理得證。

在機器學習中,線性迴歸模型是最基礎也最簡單的模型之一,在對實際數據進行擬合時,往往是不可能做到完全擬合的。故對於一般的線性迴歸問題,我們往往考慮其最小二乘解(或者完全等價地,最小化線性迴歸的代價函數,即均方誤差函數)。而且我們通常不希望解的範數太大,故還需考慮其極小範數解(注意,解的範數可以直接約束解向量的每個分量的取值範圍,例如從Frobenius範數的角度考慮,xCn,xix2\forall x\in C^n,|x_i|\leqslant ||x||_2)。有了定理10的結論,我們在尋找這些特殊解時,就可以把目標定在尋找特殊的{1}逆上。那麼都有哪些特殊的{1}逆呢?當然要先揪出{1}逆中的“老大”——PM逆,這樣我們後面的問題就好解決了。


Penrose-Moore廣義逆

Penrose於1955年提出了Penrose-Moore條件,滿足這些條件中的任何一個的矩陣G都可以稱爲A的一個廣義逆矩陣,它們分別是:

  1. AGA=A
  2. GAG=G
  3. AG是共軛對稱的
  4. GA是共軛對稱的

{1}逆是滿足條件1的廣義逆矩陣,這也是{1}逆的記法的來源。如果某一類廣義逆滿足上述的某些條件,那麼就把這一類廣義逆稱作“{滿}\{滿足的條件的標號\}逆”。例如滿足條件1、2的叫做{1,2}逆,滿足條件1、3、4的叫做{1,3,4}逆等等。共有241=152^4-1=15類廣義逆矩陣,其中得到重要應用的有{1,2}逆(自反廣義逆矩陣)、{1,2,3}逆(正規化廣義逆矩陣)、{1,2,4}逆(弱廣義逆矩陣)、{1,2,3,4}逆(Penrose-Moore廣義逆)等,當然還有後文會用到的{1,3}逆和{1,4}逆。

定義:設AFm×nA\in{F^{m\times{n}}}GFn×mG\in{F^{n\times{m}}},若G滿足如下四個條件,則稱G是A的Penrose-Moore廣義逆矩陣,簡稱PM逆,記爲G=A+G=A^+

  1. AGA=AAGA=A
  2. GAG=GGAG=G
  3. (AG)H=AG(AG)^H=AG
  4. (GA)H=GA(GA)^H=GA

PM逆不僅在數學規劃中有着重要的應用,還在概率統計、數值分析、系統控制、博弈論、信號處理和網絡理論等領域有着廣泛的應用。這是因爲PM逆具有着非常優良的數學性質,使得其在各個領域的理論分析中佔有着重要的地位。現在,我們就來看看PM逆都有哪些優良的性質。

PM逆的存在性與唯一性:

  • 定理11:任意AFrm×nA\in{F^{m\times{n}}_r}AA的PM逆是存在且唯一的
    證明:
    存在性:當r=0r=0時,易驗證On×mO_{n\times{m}}是A的一個PM逆。
    r>0r\gt{0}時,存在A的滿秩分解A=KLA=KL,其中KFm×rK\in{F^{m\times{r}}}是列滿秩矩陣,LFr×nL\in{F^{r\times{n}}}是行滿秩矩陣。由於r(KHK)=r(K)=rr(K^HK)=r(K)=r以及r(LLH)=r(L)=rr(LL^H)=r(L)=r,故KHKK^HKLLHLL^H是滿秩方陣。故KHKLLHK^HKLL^H是可逆方陣。設G=LH(KHKLLH)1KHG=L^H(K^HKLL^H)^{-1}K^H,現在證明G是A的一個PM逆:
    AGA=KLLH(KHKLLH)1KHKL=K(LLH)(LLH)1(KHK)1(KHK)L=KL=A\begin{aligned}AGA&=KLL^H(K^HKLL^H)^{-1}K^HKL\\&=K(LL^H)(LL^H)^{-1}(K^HK)^{-1}(K^HK)L\\&=KL\\&=A\end{aligned}GAG=LH(KHKLLH)1KHKLLH(KHKLLH)1KH=LH(LLH)1(KHK)1(KHK)(LLH)(LLH)1(KHK)1KH=LH(KHKLLH)1KH=G\begin{aligned}GAG&=L^H(K^HKLL^H)^{-1}K^HKLL^H(K^HKLL^H)^{-1}K^H\\&=L^H(LL^H)^{-1}(K^HK)^{-1}(K^HK)(LL^H)(LL^H)^{-1}(K^HK)^{-1}K^H\\&=L^H(K^HKLL^H)^{-1}K^H\\&=G\end{aligned}GA=LH(KHKLLH)1KHKL=LH(LLH)1(KHK)1(KHK)L=LH(LLH)1L\begin{aligned}GA&=L^H(K^HKLL^H)^{-1}K^HKL\\&=L^H(LL^H)^{-1}(K^HK)^{-1}(K^HK)L\\&=L^H(LL^H)^{-1}L\end{aligned}(GA)H=LH((LLH)1)HL=LH(LLH)1L=GA(GA)^H=L^H((LL^H)^{-1})^HL=L^H(LL^H)^{-1}L=GAAG=KLLH(KHKLLH)1KH=K(LLH)(LLH)1(KHK)1KH=K(KHK)1KH\begin{aligned}AG&=KLL^H(K^HKLL^H)^{-1}K^H\\&=K(LL^H)(LL^H)^{-1}(K^HK)^{-1}K^H\\&=K(K^HK)^{-1}K^H\end{aligned}(AG)H=K((KHK)1)HKH=K(KHK)1KH=AG(AG)^H=K((K^HK)^{-1})^HK^H=K(K^HK)^{-1}K^H=AG這就證明了A的PM逆的存在性。
    唯一性:設X,YX,Y分別是A的一個PM逆,則X=XAX=(XA)HX=AHXHX=(AYA)HXHX=AHYHAHXHX=(YA)H(XA)HX=YAXAX=YAX=Y(AX)H=YXHAH=YXH(AYA)H=YXHAHYHAH=Y(AX)H(AY)H=YAXAY=YAY=YX=XAX=(XA)^HX=A^HX^HX=(AYA)^HX^HX\\=A^HY^HA^HX^HX=(YA)^H(XA)^HX=YAXAX\\=YAX=Y(AX)^H=YX^HA^H\\=YX^H(AYA)^H=YX^HA^HY^HA^H\\=Y(AX)^H(AY)^H=YAXAY=YAY=Y這就證明了PM逆的唯一性。得證。
    【注】唯一性的證明可以說比較“辣眼睛”,但證明過程實際上是靈活地運用Penrose的四個條件,證明X=YX=Y的關鍵步驟是先得到X=YAXX=YAX,再證明YAX=YYAX=Y。建議讀者自己推導,便於理解。

該定理不僅證明了PM逆的存在性和唯一性,還給出了求PM逆的一種求法:滿秩分解法。

PM逆的秩的性質:

  • 定理12:r(A)=r(A+)=r(AA+)=r(A+A)=r(AA+A)=r(A+AA+)r(A)=r(A^+)=r(AA^+)=r(A^+A)=r(AA^+A)=r(A^+AA^+)
    證明:(不斷利用秩不等式r(AB)min{r(A),r(B)}r(AB)\leqslant \min\{r(A),r(B)\}
    因爲r(A)=r(AA+A)r(AA+)r(A+)r(A)=r(AA^+A)\leqslant{}r(AA^+)\leqslant{r(A^+)}r(A+)=r(A+AA+)r(A+A)r(A)r(A^+)=r(A^+AA^+)\leqslant{}r(A^+A)\leqslant{}r(A)r(AA+)r(A)r(AA^+)\leqslant{}r(A)r(A+A)r(A+)r(A^+A)\leqslant{}r(A^+)所以r(A)=r(A+)=r(AA+)=r(A+A)=r(AA+A)=r(A+AA+)r(A)=r(A^+)=r(AA^+)=r(A^+A)=r(AA^+A)=r(A^+AA^+)得證。
    【推論】
    根據列空間的定義,有R(AA+)R(A)R(AA^+)\subseteq R(A),而r(A)=r(AA+)r(A)=r(AA^+)告訴我們dimR(A)=dimR(AA+)\dim R(A)=\dim R(AA^+),因此我們有R(AA+)=R(A)R(AA^+)=R(A)。同理分析,根據r(A+)=r(A+A)r(A^+)=r(A^+A)可以得到R(A+A)=R(A+)R(A^+A)=R(A^+)

PM逆有以下列出的一些計算性質(用PM的定義容易驗證):

  • (A+)+=A(A^+)^+=A
  • (AT)+=(A+)T(A^T)^+=(A^+)^T
  • (AH)+=(A+)H(A^H)^+=(A^+)^H
  • (kA)+=1kA+,kF,k0(kA)^+=\frac{1}{k}A^+,k\in{F},k\neq0
  • 若A是n階(n2)(n\geqslant{2})方陣,則(A)+=(A+)(A^*)^+=(A^+)^*,其中AA^*是A的伴隨矩陣
  • 一般(AB)+B+A+(AB)^+\neq{}B^+A^+,但是(AHA)+=A+(AH)+(A^HA)^+=A^+(A^H)^+(AAH)+=(AH)+A+(AA^H)^+=(A^H)^+A^+
  • (A+A)+=A+A(A^+A)^+=A^+A(AA+)+=AA+(AA^+)^+=AA^+
  • (IA+A)+=IA+A(I-A^+A)^+=I-A^+A(IAA+)+=IAA+(I-AA^+)^+=I-AA^+
  • 若U、V爲酋矩陣,則(UAV)+=VHA+UH(UAV)^+=V^HA^+U^H

從PM逆的特性上看,PM逆可能是最接近逆矩陣的廣義逆了(唯一性、秩的關係、計算性質等)。當方陣A可逆時,容易驗證A+A^+就是A的逆矩陣。此外,如果對矩陣AA作一些限定,會發現A+A^+有個性質比較接近逆矩陣的定義:
(注意,AA不一定是方陣)

  • 定理13:設AFm×nA\in F^{m\times n},則A+A=InA^+A=I_n的充要條件爲AA列滿秩
    證明:(利用定理12的結論)
    必要性:若A+A=IA^+A=I,則由r(A)=r(A+A)=nr(A)=r(A^+A)=n知A是列滿秩矩陣
    充分性:若A是列滿秩矩陣,則由r(A+A)=r(A)=nr(A^+A)=r(A)=nA+AA^+A是滿秩方陣,用(A+A)1(A^+A)^{-1}左乘A+AA+A=A+AA^+AA^+A=A^+A,即得A+A=IA^+A=I
    【注】前面提到過,當A列滿秩時,A的左逆矩陣存在,左僞逆L=(AHA)1AHL=(A^HA)^{-1}A^H是A的一個左逆矩陣。容易驗證LL就是AA的PM逆。
  • 定理14:AA+=ImAA^+=I_m的充要條件爲Am×nA_{m\times{n}}是行滿秩矩陣
    證明:與上同理。
    【注】前面提到過,當A行滿秩時,A的右逆矩陣存在,右僞逆R=AH(AAH)1R=A^H(AA^H)^{-1}是A的一個右逆矩陣。容易驗證RR就是AA的PM逆。

PM逆作爲一種特殊的{1}逆,當然可以像{1}逆那樣表達線性方程組的解的結構:

  • 定理15:線性方程Am×nx=yA_{m\times{n}}x=y有解的充要條件爲y=AA+yy=AA^+y,若它有解,則通解爲x=A+y+(IA+A)z,zFnx=A^+y+(I-A^+A)z,z\in{F^n}
    證明:
    y=AA+yy=AA^+y,即存在A的一個{1}\{1\}逆使得y=AA(1)yy=AA^{(1)}y,則由定理5知原方程有解;若原方程有解,由定理6知對A的任意一個{1}\{1\}逆都有y=AA(1)yy=AA^{(1)}y成立,自然y=AA+yy=AA^+y也是成立的。通解式由定理7得到。
    【推論】
    對齊次線性方程組Ax=0Ax=0應用定理15,就有(IA+A)z,zFn(I-A^+A)z,z\in F^nAx=0Ax=0的通解,這意味着R(IA+A)=N(A)R(I-A^+A)=N(A)
    對齊次線性方程組(IAA+)x=0(I-AA^+)x=0應用定理15,有AA+z,zFmAA^+z,z\in F^m(IAA+)x=0(I-AA^+)x=0的通解,因此R(AA+)=N(IAA+)R(AA^+)=N(I-AA^+)
  • 定理16:關於Xm×nX_{m\times{n}}的矩陣方程AXB=DAXB=D有解的充要條件爲D=AA+DB+BD=AA^+DB^+B,若它有解,則通解爲X=A+DB++YA+AYBB+,YFm×nX=A^+DB^++Y-A^+AYBB^+,Y\in{F^{m\times{n}}}

藉助PM逆,我們還能解決方程解的唯一性問題:

線性方程組的解的唯一性:

  • 定理17:設AFm×nA\in F^{m\times n},且線性方程組Ax=yAx=y有解,則解唯一的充要條件爲A列滿秩
    證明:
    必要性:考慮方程的通解x=A+y+(IA+A)z,zFnx=A^+y+(I-A^+A)z,z\in{F^n},顯然若方程的解唯一,則必有zFn,(IA+A)z=0\forall{z}\in{F^n},(I-A^+A)z=0。故由零矩陣的判定條件知A+A=IA^+A=I,根據定理13知A列滿秩。
    充分性:若A列滿秩,則根據定理13有A+A=IA^+A=I,故方程的通解x=A+y+(IA+A)z=A+yx=A^+y+(I-A^+A)z=A^+y,可見方程的解是唯一的。
    【注】根據這個結論,當Ax=yAx=y的解存在且唯一時,A列滿秩。結合前面的討論知道,此時A+=(AHA)1AHA^+=(A^HA)^{-1}A^H,因此Ax=yAx=y的唯一解是x=A+y=(AHA)1AHyx=A^+y=(A^HA)^{-1}A^Hy

矩陣方程的解的唯一性:

  • 定理18:設關於Xm×nX_{m\times{n}}的矩陣方程AXB=DAXB=D有解,則解唯一的充要條件爲A列滿秩且B行滿秩
    證明:
    必要性:考慮通解X=A+DB++YA+AYBB+,YFm×nX=A^+DB^++Y-A^+AYBB^+,Y\in{F^{m\times{n}}},若解唯一,則YFm×n,Y=A+AYBB+\forall{Y}\in{F^{m\times{n}}},Y=A^+AYBB^+。下面分情況討論:
    mnm\geqslant{n},則可取到列滿秩的YY。由r(Y)=r(A+AYBB+)r(B)r(Y)=r(A^+AYBB^+)\leqslant{r(B)}知,BB是行滿秩的。故BB+=IBB^+=I,進一步YFm×n,Y=A+AY\forall{Y}\in{F^{m\times{n}}},Y=A^+AY(IA+A)Y=O(I-A^+A)Y=O。那麼zFm,(IA+A)z=0\forall{z}\in{F^m},(I-A^+A)z=0。由零矩陣的判定條件得,A+A=IA^+A=I,故AA列滿秩。
    mnm\leqslant{n},則可取到行滿秩的Y,由r(Y)=r(A+AYBB+)r(A)r(Y)=r(A^+AYBB^+)\leqslant{r(A)}得,A列滿秩。故A+A=IA^+A=I,進一步YFm×n,Y=YBB+\forall{Y}\in{F^{m\times{n}}},Y=YBB^+Y(IBB+)=OY(I-BB^+)=O。則zFn,zT(IBB+)=0\forall{z}\in{F^n},z^T(I-BB^+)=0。由零矩陣的判定條件得,BB+=IBB^+=I,故BB行滿秩。
    綜上,無論何種情況,若方程的解唯一,則AA列滿秩且BB行滿秩。
    充分性:若AA列滿秩且BB行滿秩,則A+A=IA^+A=IBB+=IBB^+=I。故方程的通解X=A+DB++YA+AYBB+=A+DB++YY=A+DB+X=A^+DB^++Y-A^+AYBB^+=A^+DB^++Y-Y=A^+DB^+,可見方程的解是唯一的。得證。
    【注】根據這個結論,當AXB=DAXB=D的解存在且唯一時,有A列滿秩且B行滿秩。結合前面的討論知道,此時A+=(AHA)1AHA^+=(A^HA)^{-1}A^HB+=BH(BBH)1B^+=B^H(BB^H)^{-1},因此AXB=DAXB=D的唯一解是x=A+DB+=(AHA)1AHDBH(BBH)1x=A^+DB^+=(A^HA)^{-1}A^HDB^H(BB^H)^{-1}

PM逆的列空間與零空間:

  • 定理19:N(A+)=N(AH)N(A^+)=N(A^H)R((AH)+)=R(A)R((A^H)^+)=R(A)
    證明:
    只需證明A+x=0A^+x=0AHx=0A^Hx=0是同解方程組即可。前者的通解爲x=(I(A+)+A+)z=(IAA+)zx=(I-(A^+)^+A^+)z=(I-AA^+)z,後者的通解爲x=(I(AH)+AH)z=(I(AA+)H)z=(IAA+)zx=(I-(A^H)^+A^H)z=(I-(AA^+)^H)z=(I-AA^+)z,可見它們是同解方程組,所以N(A+)=N(AH)N(A^+)=N(A^H)。進而N(A+)=N(AH)N(A^+)^\bot=N(A^H)^\bot,即R((AH)+)=R(A)R((A^H)^+)=R(A)
  • 定理20:N((AH)+)=N(A)N((A^H)^+)=N(A)R(A+)=R(AH)R(A^+)=R(A^H)
    證明:與上同理。

我們把定理12的推論、定理15的推論和定理19、定理20放在一起做個總結就是:R(A)=R((AH)+)=R(AA+)=N(IAA+)R(A+)=R(AH)=R(A+A)=N(IA+A)N(AH)=N(A+)=N(AA+)=R(IAA+)N((AH)+)=N(A)=N(A+A)=R(IA+A)R(A)=R((A^H)^+)=R(AA^+)=N(I-AA^+)\\R(A^+)=R(A^H)=R(A^+A)=N(I-A^+A)\\N(A^H)=N(A^+)=N(AA^+)=R(I-AA^+)\\N((A^H)^+)=N(A)=N(A^+A)=R(I-A^+A)其中,後面兩個式子是前面兩個式子取正交補的結果。第二個式子還可以看做是第一個式子將AA代之以A+A^+得到的結果。

至此,關於PM逆如何計算的問題,我們只提到了一種方法:滿秩分解法。實際上,求解PM逆還有很多行之有效的方法。這裏介紹兩例:

  • 奇異值分解法:設矩陣ACm×nA\in{C^{m\times{n}}},A的奇異值分解爲A=UΣVHA=U\Sigma{V^H},其中U、V均爲酋矩陣,Σ\Sigma是廣義對角矩陣。則用PM逆的定義驗證可得A+=VΣ+UHA^+=V\Sigma{}^+U^H
    【注】由於奇異值分解已有成熟的數值穩定性較好的算法,使用計算機求解PM逆時往往就是用奇異值分解法。(奇異值分解可參考鏈接

  • Greville遞推法
    遞推法求PM逆
    【注】若初始列向量a1=0a_1=0,圖中公式不適用,此時這樣計算:a1+=a1Ta_1^+=a_1^T

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章