矩陣論(二):廣義逆矩陣(下)

矩陣論專欄:專欄(文章按照順序排序)

本文以線性代數知識爲基礎。關於線代知識,如一些基本的秩(不)等式、零矩陣的判定條件等,可參考下面幾篇博客。
矩陣論(零):線性代數基礎知識整理(1)——逆矩陣、初等變換、滿秩分解
矩陣論(零):線性代數基礎知識整理(2)——矩陣的秩與向量組的秩
矩陣論(零):線性代數基礎知識整理(3)——矩陣的秩與向量組的秩
矩陣論(零):線性代數基礎知識整理(4)——線性空間與線性變換
矩陣論(零):線性代數基礎知識整理(5)——特徵值與相似

廣義逆矩陣的部分主要包括以下內容:

  • 左逆與右逆
    • 定義
    • 左逆、右逆存在的條件
  • {1}逆
    • Ax=yAx=y的求解引入{1}逆
    • {1}逆的通式
    • 用{1}逆討論Ax=yAx=y以及AXB=DAXB=D的求解
  • PM逆
    • 定義
    • PM逆的性質(存在性、唯一性、秩、計算性質、列空間、零空間)
    • 用PM逆討論Ax=yAx=y以及AXB=DAXB=D的解的存在唯一性
    • PM逆的計算方法
  • {1,4}逆
    • 從極小範數解問題引入{1,4}逆
    • A{1,4}={MMAAH=AH}={MMA=A+A}A\{1,4\}=\{M|MAA^H=A^H\}=\{M|MA=A^+A\}
    • 利用{1,4}逆解決極小範數解的存在唯一性
  • {1,3}逆
    • 從最小二乘問題引入{1,3}逆
    • A{1,3}={MAHAM=AH}={MAM=AA+}A\{1,3\}=\{M|A^HAM=A^H\}=\{M|AM=AA^+\}
    • 利用{1,4}逆解決最小二乘問題以及最小二乘解與正規方程組的聯繫
  • 極小範數最小二乘解問題
  • 總結
    • 線性迴歸問題介紹

因爲內容比較多,目錄中的內容分爲上、下兩篇博客來寫。其中,上篇介紹左逆右逆、{1}逆以及PM逆,下篇(本篇)介紹{1,4}逆、{1,3}逆及其之後的內容定理1-20在上篇博客中,定理21-31在本文中。
上篇博客鏈接:鏈接

【符號說明】
文中所用向量範數均指Frobenius範數/l2l_2範數(文中可能有一些符號不一致的地方,但一定都是指Frobenius範數/l2l_2範數)
FF通常表示數域,Fm×nF^{m\times n}是指元素在數域FF內的m×nm\times n矩陣的集合,Frm×nF^{m\times n}_r是指Fm×nF^{m\times n}中所有秩爲rr的矩陣。QQRRCC分別表示有理數域、實數域和複數域,本文所討論的數域僅限於這三種數域。單位矩陣用II表示,nn階單位矩陣用InI_n表示。
AHA^H是指AA的共軛轉置。注意AFm×n\forall A\in F^{m\times n},有AHFn×mA^H\in F^{n\times m},這是因爲域FFF=QRCF=Q或R或C)中的數取共軛後肯定還在FF中,例如實數的共軛是其自身。
我們用ii表示虛數單位,用Re{}Re\{\}表示複數的實部,Im{}Im\{\}表示複數的虛部。
對矩陣AAR(A)R(A)N(A)N(A)分別表示AA的列空間和零空間。


接上篇博客,我們討論極小範數解和最小二乘解問題,在探討這兩個問題之前,先看下相容方程組的定義:

  • 定義:關於x的線性方程組Ax=yAx=y稱爲相容方程組或一致方程,當且僅當該方程組有解

說白了就是給有解方程組起個名稱而已。顯然齊次線性方程組都是相容的,即都是一致方程。


{1,4}逆與極小範數解

什麼是極小範數解?顧名思義,就是範數最小的解。既然極小範數解是一個解,我們當然要在一致方程的範疇中討論這個問題(後面會討論非一致方程的極小範數最小二乘解,此時極小範數是另一個含義,不過與此大體相同)。

  • 定義:一致方程Ax=yAx=y的極小範數解定義爲x^\hat{x}滿足x^2=minAx=yx2||\hat{x}||_2=\min_{Ax=y}{||x||_2}

前面已經說過(定理10),一致方程Am×nx=yA_{m\times{n}}x=yy0y\neq{0}時的通解爲x=A(1)y,A(1)A{1}x=A^{(1)}y,A^{(1)}\in{A\{1\}}。這說明,當我們需要尋找一類特殊解時,可以把目標定在尋找一類特殊的{1}逆上。顯然,當y=0y=0時,Ax=yAx=y唯一的極小範數解是x=0x=0;當y0y\neq{0}時,我們就可以尋求一類特殊的{1}逆M使得x=Myx=My是極小範數解。現在,我們來看M應該滿足什麼樣的條件:
(注意極小範數這樣的問題屬於討論函數極值的一類問題,需要使用分析學的方法)

  • 定理21:設AFm×nA\in{F^{m\times{n}}}MA{1}M\in{A\{1\}},數域FF可以是RRCC,則如下兩命題等價:
    命題(1):yFm,x=My\forall{y}\in{F^m},x=My是一致方程Ax=yAx=y的極小範數解
    命題(2):MA=A+AMA=A^+A
    證明:
    命題(1)等價於bFm,x=MAb\forall{b}\in{F^m},x=MAb是方程Ax=AbAx=Ab的極小範數解。bFm\forall{b\in{F^m}},方程Ax=AbAx=Ab的通解爲x=A+Ab+(IA+A)z,zFnx=A^+Ab+(I-A^+A)z,z\in{F^n}。因爲MA{1}M\in{A\{1\}},故必存在z^Fn\hat{z}\in{F^n},使得MAb=A+Ab+(IA+A)z^MAb=A^+Ab+(I-A^+A)\hat{z}。爲便於分析,引入實值輔助函數f(z)=A+Ab+(IA+A)z2,zFnf(z)=||A^+Ab+(I-A^+A)z||^2,z\in{F^n}
    (1)\Rightarrow(2):由命題(1)知,ffz=z^z=\hat{z}處取得最小值。則對vFn\forall{v}\in{F^n},實值函數gv(t)=f(z^+tv),tRg_v(t)=f(\hat{z}+tv),t\in{R}hv(t)=f(z^+itv),tRh_v(t)=f(\hat{z}+itv),t\in{R}都在t=0t=0處取得最小值。由極值的必要條件,dgvdtt=0=0\frac{dg_v}{dt}|_{t=0}=0dhvdtt=0=0\frac{dh_v}{dt}|_{t=0}=0。以dgvdt\frac{dg_v}{dt}爲例:dgvdt=ddtA+Ab+(IA+A)(z^+tv)2=ddtMAb+t(IA+A)v2=ddt(MAb2+t2(IA+A)v2+2tRe{<MAb,(IA+A)v>})=2t(IA+A)v2+2Re{<MAb,(IA+A)v>}\begin{aligned}\frac{dg_v}{dt}&=\frac{d}{dt}||A^+Ab+(I-A^+A)(\hat{z}+tv)||^2\\&=\frac{d}{dt}||MAb+t(I-A^+A)v||^2\\&=\frac{d}{dt}(||MAb||^2+t^2||(I-A^+A)v||^2+2tRe\{<MAb,(I-A^+A)v>\})\\&=2t||(I-A^+A)v||^2+2Re\{<MAb,(I-A^+A)v>\}\end{aligned}t=0t=0時,dgvdt=2Re{<MAb,(IA+A)v>}=0\frac{dg_v}{dt}=2Re\{<MAb,(I-A^+A)v>\}=0。同理,當t=0t=0時,dhvdt=2iIm{<MAb,(IA+A)v>}=0\frac{dh_v}{dt}=2iIm\{<MAb,(I-A^+A)v>\}=0。故<MAb,(IA+A)v>=0<MAb,(I-A^+A)v>=0,即bH(MA)H(IA+A)v=0b^H(MA)^H(I-A^+A)v=0。注意到vFnv\in F^n是任取的,我們可以判定bH(MA)H(IA+A)=Ob^H(MA)^H(I-A^+A)=O,又bFmb\in F^m,我們可以判定(MA)H(IA+A)=O(MA)^H(I-A^+A)=O。兩端取共軛轉置得(IA+A)MA=MAA+A=O(I-A^+A)MA=MA-A^+A=O,即MA=A+AMA=A^+A
    (1)\Leftarrow(2):若MA=A+AMA=A^+A,則(MA)H(IA+A)=O(MA)^H(I-A^+A)=O。因爲f(z)=A+Ab+(IA+A)z2=MAb+(IA+A)(zz^)2=MAb2+(IA+A)(zz^)2+2Re{<MAb,(IA+A)(zz^)>}=MAb2+(IA+A)(zz^)2+2Re{bH(MA)H(IA+A)(zz^)}=MAb2+(IA+A)(zz^)2MAb2\begin{aligned}f(z)&=||A^+Ab+(I-A^+A)z||^2\\&=||MAb+(I-A^+A)(z-\hat{z})||^2\\&=||MAb||^2+||(I-A^+A)(z-\hat{z})||^2+2Re\{<MAb,(I-A^+A)(z-\hat{z})>\}\\&=||MAb||^2+||(I-A^+A)(z-\hat{z})||^2+2Re\{b^H(MA)^H(I-A^+A)(z-\hat{z})\}\\&=||MAb||^2+||(I-A^+A)(z-\hat{z})||^2\\&\geqslant{||MAb||^2}\end{aligned}對任意zFnz\in{F^n}成立,故x=MAbx=MAb是原方程的極小範數解。

我們找到了M應滿足的條件:MA=A+AMA=A^+A,這個條件看上去並不直觀,接下來對它作個等價轉化:

  • 定理22:設AFm×nA\in{F^{m\times{n}}}MA{1}M\in{A\{1\}},數域FF可以是RRCC,則如下兩命題等價:
    命題(1):yFm,x=My\forall{y}\in{F^m},x=My是一致方程Ax=yAx=y的極小範數解
    命題(2):(MA)H=MA(MA)^H=MA
    證明:只需證明MA=A+A    (MA)H=MAMA=A^+A\iff{}(MA)^H=MA
    \Rightarrow
    由於A+AA^+A是共軛對稱的,故(MA)H=MA(MA)^H=MA
    \Leftarrow
    先用PM逆的定義證明MAA+=A+MAA^+=A^+
    A(MAA+)A=AA+A=AA(MAA^+)A=AA^+A=A
    (MAA+)A(MAA+)=M(AMA)A+=MAA+(MAA^+)A(MAA^+)=M(AMA)A^+=MAA^+
    A(MAA+)=AA+A(MAA^+)=AA^+,因爲AA+AA^+是共軛對稱的,故A(MAA+)A(MAA^+)是共軛對稱的
    (MAA+)A=MA(MAA^+)A=MA,因爲MAMA是共軛對稱的,故(MAA+)A(MAA^+)A是共軛對稱的
    這就證明了MAA+=A+MAA^+=A^+。用A右乘該式,就得到MA=A+AMA=A^+A

這個定理告訴我們M就是A的{1,4}逆,而且容易發現{1,4}逆的一個充要條件:

  • 定理23:矩陣M是A的一個{1,4}逆的充要條件爲MA=A+AMA=A^+A
    證明:
    根據定理21和定理22,只需證明若MA=A+AMA=A^+A,則AMA=AAMA=A即可。用A左乘MA=A+AMA=A^+A,就得到AMA=AAMA=A。得證。

實際上,{1,4}逆有不依賴於PM逆的充要條件,只要對MA=A+AMA=A^+A做一等價轉化即可:

  • 定理24:矩陣M是A的一個{1,4}逆的充要條件爲MAAH=AHMAA^H=A^H
    證:只需證明MA=A+A    MAAH=AHMA=A^+A \iff MAA^H=A^H
    \RightarrowMAAH=A+AAH=(A+A)HAH=(AA+A)H=AHMAA^H=A^+AA^H=(A^+A)^HA^H=(AA^+A)^H=A^H
    \LeftarrowMA=MAA+A=MA(A+A)H=MAAH(A+)H=AH(A+)H=(A+A)H=A+AMA=MAA^+A=MA(A^+A)^H=MAA^H(A^+)^H=A^H(A^+)^H=(A^+A)^H=A^+A

結合以上結論,我們便有A{1,4}={MMAAH=AH}={MMA=A+A}A\{1,4\}=\{M|MAA^H=A^H\}=\{M|MA=A^+A\}

至此,我們基本上已經解決了極小範數解的問題。現在還剩下一個問題:極小範數解是唯一的還是有多個?實際上,有了前面的結論的支撐,我們很容易證明極小範數解是唯一的:

  • 定理25:一致方程的極小範數解是唯一的
    證明:
    我們已經知道一致方程Ax=yAx=y的全部極小範數解是x=My,MA{1,4}x=My,M\in{A\{1,4\}}。現在任取M1,M2A{1,4}M_1,M_2\in{A\{1,4\}},由於Ax=yAx=y是一致方程,故AM1y=AM2y=yAM_1y=AM_2y=yM1y=(M1A)M2y=(A+A)M2y=(M2A)M2y=M2yM_1y=(M_1A)M_2y=(A^+A)M_2y=(M_2A)M_2y=M_2y這就證明了極小範數解是唯一的。

{1,3}逆與最小二乘解

在線性迴歸問題中,在給定的數據集下一般是沒有精確解的,那麼這時我們就希望找到的解“儘量精確”。如何做到儘量精確呢?注意到線性方程組Ax=yAx=y實際上是說,AxAx這個向量與yy這個向量之間無偏差,故對於非一致方程(不相容方程組、無解線性方程組)Ax=yAx=y,我們可以用AxAxyy之間的偏差有多大來反映“解”xx有多精確。常採用的“偏差”是AxAxyy之間的歐式距離,即Axy2||Ax-y||_2。這就引出了最小二乘解的定義:

  • 定義:方程Am×nx=yA_{m\times{n}}x=y的最小二乘解x^\hat{x}定義爲x^\hat{x}滿足Ax^y2=minxFnAxy2||A\hat{x}-y||_2=\min_{x\in{F^n}}{||Ax-y||_2}

在求解極小範數解的問題時,我們一開始就已經知道極小範數解具有x=A(1)yx=A^{(1)}y的形式。在最小二乘問題中,我們並不好知道最小二乘解會具有怎樣的形式。所以,就像最初研究{1}逆一樣,我們假定x=Myx=MyAx=yAx=y的最小二乘解,來探究一下這樣的矩陣M具有怎樣的性質。與極小範數解的研究思路一樣,涉及到函數極值問題,我們通常都引入分析學思路。

  • 定理26:設AFm×nA\in{F^{m\times{n}}}MFn×mM\in{F^{n\times{m}}},數域FF可以是RRCC,則如下兩命題等價:
    命題(1):yFm\forall{y}\in{F^m}x=Myx=My是方程組Ax=yAx=y的最小二乘解
    命題(2):AHAM=AHA^HAM=A^H
    證明:
    yFm\forall{y}\in{F^m},引入實值輔助函數fy(x)=Axy2,xFnf_y(x)=||Ax-y||^2,x\in{F^n}
    (1)\Rightarrow(2):記x^=My\hat{x}=My,若命題(1)成立,則fyf_yx=x^x=\hat{x}處取得最小值。故對vFn\forall{v}\in{F^n},實值函數gv(t)=fy(x^+tv),tRg_v(t)=f_y(\hat{x}+tv),t\in{R}hv(t)=fy(x^+itv),tRh_v(t)=f_y(\hat{x}+itv),t\in{R}都在t=0t=0處取得最小值。由極值的必要條件,dgvdtt=0=0\frac{dg_v}{dt}|_{t=0}=0dhvdtt=0=0\frac{dh_v}{dt}|_{t=0}=0。以dgvdt\frac{dg_v}{dt}爲例:dgvdt=ddtA(x^+tv)y2=ddt(AMI)y+tAv2=ddt((AMI)y2+t2Av2+2tRe{<(AMI)y,Av>})=2tAv2+2Re{<(AMI)y,Av>}\begin{aligned}\frac{dg_v}{dt}&=\frac{d}{dt}||A(\hat{x}+tv)-y||^2\\&=\frac{d}{dt}||(AM-I)y+tAv||^2\\&=\frac{d}{dt}(||(AM-I)y||^2+t^2||Av||^2+2tRe\{<(AM-I)y,Av>\})\\&=2t||Av||^2+2Re\{<(AM-I)y,Av>\}\end{aligned}t=0t=0時,dgvdt=2Re{<(AMI)y,Av>}=0\frac{dg_v}{dt}=2Re\{<(AM-I)y,Av>\}=0。同理,當t=0t=0時,dhvdt=2iIm{<(AMI)y,Av>}=0\frac{dh_v}{dt}=2iIm\{<(AM-I)y,Av>\}=0。故<(AMI)y,Av>=0<(AM-I)y,Av>=0,即yH(AMI)HAv=0y^H(AM-I)^HAv=0。注意到vFnv\in F^n是任取的,我們可以判定yH(AMI)HA=Oy^H(AM-I)^HA=O,又yFmy\in F^m是任取的,我們可以判定(AMI)HA=O(AM-I)^HA=O。兩端取共軛轉置得AH(AMI)=OA^H(AM-I)=O,即AHAM=AHA^HAM=A^H
    (1)\Leftarrow(2):若AHAM=AHA^HAM=A^H,則(AMI)HA=O(AM-I)^HA=O。因爲fy(x)=Axy2=(AMI)y+A(xMy)=(AMI)y2+A(xMy)2+2Re{<(AMI)y,A(xMy)>}=(AMI)y2+A(xMy)2+2Re{yH(AMI)HAv}=(AMI)y2+A(xMy)2AMyy2\begin{aligned}f_y(x)&=||Ax-y||^2\\&=||(AM-I)y+A(x-My)||\\&=||(AM-I)y||^2+||A(x-My)||^2+2Re\{<(AM-I)y,A(x-My)>\}\\&=||(AM-I)y||^2+||A(x-My)||^2+2Re\{y^H(AM-I)^HAv\}\\&=||(AM-I)y||^2+||A(x-My)||^2\\&\geqslant{}||AMy-y||^2\end{aligned}xFn\forall{x}\in{F^n}成立。故x=Myx=My是原方程的最小二乘解。

同樣地,條件AHAM=AHA^HAM=A^H看起來不是很直觀,所以我們對它作個等價轉化:

  • 定理27:設AFm×nA\in{F^{m\times{n}}}MFn×mM\in{F^{n\times{m}}},數域FF可以是RRCC,則如下兩命題等價:
    命題(1):yFm\forall{y}\in{F^m}x=Myx=My是方程組Ax=yAx=y的最小二乘解
    命題(2):AMA=AAMA=A(AM)H=AM(AM)^H=AM
    證明:
    由定理26知,只需證明AHAM=AH    AMA=A(AM)H=AMA^HAM=A^H\iff{}AMA=A且(AM)^H=AM
    \Rightarrow
    用A右乘AHAM=AHA^HAM=A^HAHAMA=AHAA^HAMA=A^HA,即AHA(MAI)=OA^HA(MA-I)=O。因爲r(AHA)=r(A)r(A^HA)=r(A),故由零矩陣的判定條件得A(MAI)=OA(MA-I)=O,即AMA=AAMA=A。用MHM^H左乘AHAM=AHA^HAM=A^H(AM)HAM=(AM)H(AM)^HAM=(AM)^H,兩端取共軛轉置得(AM)HAM=AM(AM)^HAM=AM,故(AM)H=AM(AM)^H=AM
    \Leftarrow
    AHAM=AH(AM)H=(AMA)H=AHA^HAM=A^H(AM)^H=(AMA)^H=A^H
    【注】證明中用到的零矩陣的判定條件見博客鏈接

上面的定理告訴我們,M就是A的{1,3}逆。通過將{1,3}逆的充要條件AHAM=AHA^HAM=A^H作等價轉化,可以得到{1,3}逆另一個常用的充要條件,這個條件是依賴於PM逆的:

  • 定理28:M是A的{1,3}逆的充要條件爲AM=AA+AM=AA^+
    證明:
    必要性:用(A+)H(A^+)^H左乘AHAM=AHA^HAM=A^H,得(A+)HAHAM=AA+AM=AM=(A+)HAH=AA+(A^+)^HA^HAM=AA^+AM=AM=(A^+)^HA^H=AA^+
    充分性:用AHA^H左乘AM=AA+AM=AA^+即得AHAM=AHAA+=AH(AA+)H=(AA+A)H=AHA^HAM=A^HAA^+=A^H(AA^+)^H=(AA^+A)^H=A^H

結合以上結論,我們便有A{1,3}={MAHAM=AH}={MAM=AA+}A\{1,3\}=\{M|A^HAM=A^H\}=\{M|AM=AA^+\}

現在,像研究一致方程的通解一樣,我們還能找到最小二乘解的“通解”:

  • 定理29:給定AA的一個{1,3}逆A(1,3)A^{(1,3)},線性方程組Ax=yAx=y的全部最小二乘解爲x=A(1,3)y+(IA(1,3)A)z,zFnx=A^{(1,3)}y+(I-A^{(1,3)}A)z,z\in{F^n},數域FF可以是RRCC
    證明:
    因爲A(A(1,3)y+(IA(1,3)A)z)y=AA(1,3)y+(AAA(1,3)A)zy=AA(1,3)yy||A(A^{(1,3)}y+(I-A^{(1,3)}A)z)-y||=||AA^{(1,3)}y+(A-AA^{(1,3)}A)z-y||=||AA^{(1,3)}y-y||,故x=A(1,3)y+(IA(1,3)A)z,zFnx=A^{(1,3)}y+(I-A^{(1,3)}A)z,z\in{F^n}都是原方程的最小二乘解。
    任取原方程的任一最小二乘解xx,由於Axy2=AA(1,3)yy+A(xA(1,3)y)2=AA(1,3)yy2+A(xA(1,3)y)2+2Re{<AA(1,3)yy,A(xA(1,3)y)>}=AA(1,3)yy2+A(xA(1,3)y)2=AA(1,3)yy2\begin{aligned}||Ax-y||^2&=||AA^{(1,3)}y-y+A(x-A^{(1,3)}y)||^2\\&=||AA^{(1,3)}y-y||^2+||A(x-A^{(1,3)}y)||^2\\&+2Re\{<AA^{(1,3)}y-y,A(x-A^{(1,3)}y)>\}\\&=||AA^{(1,3)}y-y||^2+||A(x-A^{(1,3)}y)||^2\\&=||AA^{(1,3)}y-y||^2\end{aligned}A(xA(1,3)y)2=0||A(x-A^{(1,3)}y)||^2=0Ax=AA(1,3)yAx=AA^{(1,3)}y。該方程的通解爲x=A(1,3)y+(IA(1,3)A)z,zFnx=A^{(1,3)}y+(I-A^{(1,3)}A)z,z\in{F^n},故x=A(1,3)y+(IA(1,3)A)z,zFnx=A^{(1,3)}y+(I-A^{(1,3)}A)z,z\in{F^n}包含了原方程的所有最小二乘解。綜上,得證。

在上述定理的證明中,容易看出Ax=yAx=y的全部最小二乘解就是Ax=AA(1,3)yAx=AA^{(1,3)}y的全部精確解。此外,最小二乘解與正規方程有着緊密的聯繫:

  • 定理30:設Ax=yAx=y的最小二乘解的集合爲U1U_1,正規方程AHAx=AHyA^HAx=A^Hy的解集爲U2U_2,則U1=U2U_1=U_2
    證明:
    只需證明方程Ax=AA(1,3)yAx=AA^{(1,3)}yAHAx=AHyA^HAx=A^Hy等價即可。
    \Rightarrow:
    AHA^H左乘Ax=AA(1,3)yAx=AA^{(1,3)}yAHAx=AHAA(1,3)y=((AA(1,3))HA)Hy=(AA(1,3)A)Hy=AHyA^HAx=A^HAA^{(1,3)}y=((AA^{(1,3)})^HA)^Hy=(AA^{(1,3)}A)^Hy=A^Hy\Leftarrow
    AHAx=AHy=(AA(1,3)A)Hy=AHAA(1,3)yA^HAx=A^Hy=(AA^{(1,3)}A)^Hy=A^HAA^{(1,3)}y,因此AHA(xA(1,3)y)=OA^HA(x-A^{(1,3)}y)=O。因爲r(AHA)=r(A)r(A^HA)=r(A),故由零矩陣的判定條件得A(xA(1,3)y)=OA(x-A^{(1,3)}y)=O,即Ax=AA(1,3)yAx=AA^{(1,3)}y
    【注】證明中用到的零矩陣的判定條件見博客鏈接

最小二乘解是唯一的嗎?由於Ax=yAx=y的全部最小二乘解就是一致方程Ax=AA(1,3)yAx=AA^{(1,3)}y的通解,故我們只需看Ax=AA(1,3)yAx=AA^{(1,3)}y的解是否唯一即可。由PM逆一節的相關結論(定理17)知道,Ax=AA(1,3)yAx=AA^{(1,3)}y的解唯一的充要條件是A列滿秩。所以,Ax=yAx=y的最小二乘解唯一當且僅當AA列滿秩。

至此,我們已基本上解決了最小二乘解的問題。現在回到線性迴歸問題上,我們爲了使非一致方程Ax=yAx=y的求解“儘量精確”,可以取它的最小二乘解x=A+y+(IA+A)z,zFnx=A^+y+(I-A^+A)z,z\in{F^n}(注意,PM逆是{1,3}逆的特例)。那麼最小二乘解中範數最小的解會是怎樣的?類似於一致方程的極小範數解?


PM逆與極小範數最小二乘解

  • 定義:線性方程組Ax=yAx=y的極小範數最小二乘解x^\hat{x}是指範數最小的最小二乘解,即x^\hat{x}滿足x^z,z{zAzyAxy,xFn}||\hat{x}||\leqslant||z||,\forall z\in\{z\mid||Az-y||\leqslant||Ax-y||,\forall x\in F^n\}前面已經給出了最小二乘解的通解形式,故該定義還可以寫成x^=minzFn{A+y+(IA+A)z}||\hat{x}||=\min_{z\in{F^n}}\{||A^+y+(I-A^+A)z||\}其中數域FF可以是RRCC

  • 定理31:線性方程組Ax=yAx=y唯一的極小範數最小二乘解是x=A+yx=A^+y
    證明:
    zFn,A+y+(IA+A)z2=A+y2+(IA+A)z2+2Re{<A+y,(IA+A)z>}=A+y2+(IA+A)z2A+y2\forall{z}\in{F^n},\\\begin{aligned}&||A^+y+(I-A^+A)z||^2\\=&||A^+y||^2+||(I-A^+A)z||^2+2Re\{<A^+y,(I-A^+A)z>\}\\=&||A^+y||^2+||(I-A^+A)z||^2\\\geqslant{}&||A^+y||^2\end{aligned}當且僅當(IA+A)z=0(I-A^+A)z=0時取等號,故A+yA^+y是原方程唯一的極小範數最小二乘解。
    【注】實際上,容易證明Am×nx=yA_{m\times{n}}x=y的最小二乘解即Ax=AA+yAx=AA^+y的解,故只需求Ax=AA+yAx=AA^+y的極小範數解:x=A+(AA+y)=A+yx=A^+(AA^+y)=A^+y


總結

本文用盡可能少的額外概念對廣義逆矩陣作了一個大體的介紹,廣義逆矩陣是描述線性方程組各種解的結構最有力的工具,其中“各種解”包括了精確解、極小範數解、最小二乘解以及極小範數最小二乘解。

線性迴歸問題介紹

機器學習中的線性迴歸問題表述如下:
設有m個樣本s1,s2,...,sms_1,s_2,...,s_m(爲表示方便,假設sis_i是行向量),每個樣本包含n個特徵(siTRns_i^T\in R^n),它們的標籤分別是y1,y2,...,ymRy_1,y_2,...,y_m\in R。現要求得一線性模型yi=θTsi+by_i=\theta^Ts_i+b對於任意i成立,其中θ\thetabb是要求解的參數。該問題可寫成如下矩陣形式:設ai=[1si]a_i=\begin{bmatrix}1&s_i\end{bmatrix}A=[a1a2...am]A=\begin{bmatrix}a_1\\a_2\\...\\a_m\end{bmatrix}(A稱爲設計矩陣),x=[bθ]x=\begin{bmatrix}b\\\theta\end{bmatrix}y=[y1y2...ym]y=\begin{bmatrix}y_1\\y_2\\...\\y_m\end{bmatrix},求解參數向量x使得Ax=yAx=y
(1)解決線性迴歸問題的一個途徑是直接使用PM逆求極小範數最小二乘解:x=A+yx=A^+yAx=yAx=y唯一的極小範數最小二乘解。大多數編程語言的數學庫求PM逆的函數是pinv(),例如Matlab中求PM逆的函數是pinv(),python中是numpy.linalg.pinv()。
(2)解決線性迴歸問題的另一個途徑是最小化線性迴歸的代價函數:均方誤差函數是J(x)=12mi=1m(θTsi+byi)2=12m(Axy)T(Axy)J(x)=\frac{1}{2m}\sum_{i=1}^m(\theta^Ts_i+b-y_i)^2=\frac{1}{2m}(Ax-y)^T(Ax-y)。利用矩陣微積分可以證明使得均方誤差最小的參數向量xx滿足正規方程ATAx=ATyA^TAx=A^Ty(局部極小解)。若A列滿秩,則x=(ATA)1ATyx=(A^TA)^{-1}A^Ty,正規方程的解是唯一的,故一定是使得均方誤差最小的解(全局極小解)。通常,如果不存在線性相關的特徵列且樣本數量大於特徵數量的話,A就是列滿秩的,故對於大多數情況x=(ATA)1ATyx=(A^TA)^{-1}A^Ty是可行的。若A不是列滿秩的,且難以通過修改原數據集使得A列滿秩,那麼此時正規方程的解不唯一,但由於均方誤差函數是凸函數,其局部極小解一定是全局極小解,故任取正規方程的一個解都能使得均方誤差最小。
【注】上述兩種方案的不同之處在於出發點不一樣((1)從廣義逆理論的角度出發,而(2)是從概率論和凸優化的角度出發的,均方誤差函數是通過什麼概率方法得到的請參考鏈接),然而不同的出發點導出的結果實際上是一樣的:對比均方誤差函數和最小二乘解的定義可知,最小化均方誤差函數等價於求最小二乘解。定理31告訴我們,任取正規方程的一個解,都是Ax=yAx=y的一個最小二乘解,反過來也成立。這恰好驗證了廣義逆方法和凸優化方法得到的是同一個結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章