[筆記][總結] MIT線性代數 Gilbert Strang 正交矩陣

作者水平有限,歡迎大家提出文中錯誤

正交性

xTy=0 x^Ty=0
則稱xyx\perp y,此時x2+y2=x+y2\left\|x\right\|^2+\left\|y\right\|^2=\left\|x+y\right\|^2,稱爲勾股定理或Pythagoras lawPythagoras'\ law

  1. 0any vector0\perp any \ vector
  2. 如果說子空間SS與子空間TT垂直,vS,wT,vw\forall v\in S,\forall w\in T,v\perp w
  3. 對於矩陣AAC(AT)N(A)C(A^T)\perp N(A)C(A)N(AT)C(A)\perp N(A^T)

標準正交矩陣

Q is a orthonormal matrix, only ifQ\ is\ a\ orthonormal\ matrix,\ only\ if
qiTqj={0, if ij1, if i=j q_i^Tq_j= \left\{ \begin{aligned} 0,\ if\ i\not=j\\ 1,\ if\ i=j \end{aligned} \right.
QTQ=I Q^TQ=I
對於一般的正交矩陣上式得出了一個對角陣,對角元是各列向量長度平方

如果QQ是方陣
QT=Q1 Q^T=Q^{-1}
即使QmnQ_{m*n}不是方陣
QnmTQmn=Inn Q^T_{n*m}Q_{m*n}=I_{n*n}
同時不難得出QQ總是列滿秩的。
比如4維的Adhemar matrixAdhemar\ matrix,矩陣中只有-1和1,但並不是所有維度的矩陣都有這種形式
12[1111111111111111] \frac{1}{2} \left[ \begin{matrix} 1&1&1&1 \\ 1&-1&1&-1\\ 1&1&-1&-1 \\ 1&-1&-1&1\\ \end{matrix} \right]

投影矩陣

一維情況

在這裏插入圖片描述
首先考慮向一維子空間的投影,ppbb投影后的像,

b=p+eb=p+ebTa=pTa+eTab^Ta=p^Ta+e^Ta

由於eae\perp a,所以eTa=0e^Ta=0,所以有bTa=pTab^Ta=p^Ta

又因爲aapp同向,pTa=pap^Ta=\left \| p\right \| \left \| a\right \|,所以aTbaTa=pa\frac {a^Tb}{a^Ta}=\frac{\left \| p\right \| }{ \left \| a\right \|}

所以矩陣aaTaTa\frac{aa^T}{ a^Ta}是一個投影算子,也可以看出pp是子空間中距離bb最近的像

向多維情況拓展,假設投影矩陣PP可以將向量投影到AA的列空間C(A)C(A)

最小二乘法

在向多維情況拓展之前,首先說一下最小二乘法

考慮一個線性方程組Ax=b,bC(A)Ax=b,b\notin C(A),此方程組一定是無解的,但是可以找到方程最近的一個解,通過把bb投影到C(A)C(A)

設此像爲pp,方程組變爲Ax^=pA\hat{x}=p

Ax^A\hat x是距離bb最近的C(A)C(A)中的像,那麼誤差向量e=bAx^e=b-A\hat{x}一定垂直於C(A)C(A)

所以有AT(bAx^)=0A^T(b-A\hat{x})=0。(特別一提eN(A)e\in N(A)

ATAx^=ATbA^TA\hat{x}=A^Tb

此時如果ATAA^TA是奇異的(明顯是方陣,而且是對稱矩陣),推導便走到了盡頭。所以下面論證ATAA^TA的可逆性。

Ax=0Ax=0,那麼ATAx=0A^TAx=0,則
N(A)N(ATA) N(A)\subseteq N(A^TA)
ATAx=0A^TAx=0,則xTATAx=0x^TA^TAx=0,則(Ax)TAx=0(Ax)^TAx=0,則Ax=0Ax=0,則
N(ATA)N(A) N(A^TA)\subseteq N(A)

綜上所述,N(ATA)=N(A)N(A^TA)=N(A)rank ATA=rank Arank\ A^TA=rank\ A

換言之,只有當AA行滿秩或列滿秩的時候,ATAA^TA纔是可逆的。

回到投影矩陣

上一節已經知道只有AA行滿秩或列滿秩的時候,(ATA)1(A^TA)^{-1}才存在, 那麼我們就假設AA毫無冗餘地描述了其列空間,於是我們立馬可得
x^=(ATA)1ATb \hat{x}=(A^TA)^{-1}A^Tb
Ax^=A(ATA)1ATb A\hat{x}=A(A^TA)^{-1}A^Tb
p=A(ATA)1ATb p=A(A^TA)^{-1}A^Tb
至此,投影矩陣PP已經得出
P=A(ATA)1AT P=A(A^TA)^{-1}A^T
可見此矩陣與一維情況有相似之處,當AA是一個向量的時候,矩陣會退化爲其一維形式
如果AA是一個標準正交的矩陣,記作QQ,則
P=QQT P=QQ^T

投影矩陣的若干性質

  1. 不難證明,PP是對稱矩陣
  2. Pn=PP^n=P,可以輕鬆證明,不再贅述
  3.  vC(A),Pv=v\forall\ v\in C(A),Pv=v
  4. 如果AA可逆,P=IP=I

再述最小二乘法

假設有一些數據構成了向量bmeasurementb_{measurement},理想條件下,bmeasurementb_{measurement}在矩陣方程中是有解的,但是由於測量過程中噪聲的存在,bmeasurementb_{measurement}偏離了真值,造成了Ax=bmeasurementAx=b_{measurement}無解,但是正如上文所說,可以將bmeasurementb_{measurement}投影到C(A)C(A)中,使得方程可解,即擬合。其實擬合的數據點足夠多可以消除噪聲的影響,得到現有數據對應的最可能解。

R2\mathbb R^2中討論
假設解爲y=ax+cy=ax+c
[x11x21xn1][ac]=[y1y2yn] \begin{bmatrix} x_1 & 1 \\ x_2 & 1\\ \vdots & \vdots\\ x_{n} & 1 \\ \end{bmatrix} \left[ \begin{matrix} a\\ c\\ \end{matrix} \right]= \left[ \begin{matrix} y_1 \\ \vdots \\ y_2 \\ y_n \\ \end{matrix} \right]
此爲Ax=bmeasurementAx=b_{measurement}

方程ATAx^=ATbA^TA\hat x=A^Tb的解爲
[a^c^] \left[ \begin{matrix} \hat a\\ \hat c\\ \end{matrix} \right]
ATA=[i=1nxi2i=1nxii=1nxin] A^TA= \left[ \begin{matrix} \sum\limits_{i=1}^nx_i^2 & \sum\limits_{i=1}^nx_i\\ \sum\limits_{i=1}^nx_i & n\\ \end{matrix} \right]
ATb=[i=1nxiyii=1nyi] A^Tb= \left[ \begin{matrix} \sum\limits_{i=1}^nx_iy_i\\ \sum\limits_{i=1}^ny_i\\ \end{matrix} \right]
解爲:
a^=ni=1nxiyii=1nxii=1nyini=1nxi2(i=1nxi)2,c^=yˉa^xˉ \hat a=\frac{n\sum\limits_{i=1}^nx_iy_i-\sum\limits_{i=1}^nx_i\sum\limits_{i=1}^ny_i}{n\sum\limits_{i=1}^nx_i^2-(\sum\limits_{i=1}^nx_i)^2}, \hat c=\bar y-\hat a\bar x
以上即爲高中數學的線性迴歸方程

而上述方法可以達到什麼最優呢?根據投影的幾何意義,投影是爲了bp\left\|b-p\right\|最小
在二維的最小二乘法中,e2=i=1n[yi(a^xˉ+c^)]2{\left\|e\right\|}^2=\sum\limits^n_{i=1} \left[ y_i-(\hat a \bar x+\hat c) \right]^2
在這裏插入圖片描述
e=0\nabla e=0是我們需要求的狀態,則
a^e=0, c^e=0 \partial_{\hat a}e=0,\ \partial_{\hat c}e=0
這個微分方程的解和上式一樣

如果AA是一個標準正交的矩陣,記作QQ,則方程ATAx^=ATbA^TA\hat x=A^Tb化爲
x^=QTb \hat x=Q^Tb
其意義是在標準正交基[q1qn][q_1\dots q_n]下,向量bb的第ii個座標爲x^=qiTb\hat x=q_i^Tb

Gram-Schmidt正交化

通過Gram-Schmidt正交化,可以根據AA找到一組C(A)C(A)的標準正交基

看一個R3\mathbb R^3的例子
在這裏插入圖片描述
Q=[q1qn] Q= \left[ \begin{matrix} q_1 \dots q_n \end{matrix} \right]
首先
q1=1a1a1 q_1=\frac 1{\left\|a_1\right\|}a_1
對於q2q_2
a2a_2a1a_1上的投影向量等於a1a1Ta1Ta1a2\frac{a_1a_1^T}{a_1^Ta_1}a_2,則
e1=(Iq1q1Tq1Tq1)a2 e_1=(I-\frac{q_1q_1^T}{q_1^Tq_1})a_2
或者
e1=a2(q1Ta2)q1 e_1=a_2-(q_1^Ta_2)q_1
e1q2e_1\parallel q_2,所以
q2=1e1e1 q_2=\frac 1{\left\|e_1\right\|}e_1
對於q3q_3,需要先構造矩陣
B=[q1q2] B= \left[ \begin{matrix} q_1&q_2 \end{matrix} \right]
a3a_3C(B)C(B)上的投影爲B(BTB)1BTa3B(B^TB)^{-1}B^Ta_3,則
e2=(IB(BTB)1BT)a3 e_2=(I-B(B^TB)^{-1}B^T)a_3
或者
e2=a3(q1q1T+q2q2T)a3 e_2=a_3-(q_1q_1^T+q_2q_2^T)a_3
e2=a3(q1Ta3)q1+(q2Ta3)q2 e_2=a_3-(q_1^Ta_3)q_1+(q_2^Ta_3)q_2
q3=1e2e2 q_3=\frac1{\left\|e_2\right\|}e_2
推廣到任意維空間,第ii個向量的正交化
ei1=aij=1i1(qjTai)qj, qi=1ei1ei1e_{i-1}=a_i-\sum\limits_{j=1}^{i-1}(q_j^Ta_i)q_j,\ q_i=\frac1{\left\|e_{i-1}\right\|}e_{i-1}
注意這裏公式似乎和一些教材上的有所不同,是因爲這些教材上沒有在生成了正交基後立即對其標準化,導致BTBIB^TB\not=I,而是一個對角陣。導致了每一項下係數不爲1。

A=QRA=QR

如果是消元法的矩陣形式是A=LUA=LU
那麼Gram-Schmidt正交化的矩陣形式就是A=QRA=QR
[a1a2am]=[q1q2qm][a1Tq1a2Tq1amTq1a1Tq2a2Tq2amTq2a1Tqma2TqmamTqm] \left[ \begin{matrix} a1&a_2&\cdots&a_m \end{matrix} \right]= \left[ \begin{matrix} q_1&q_2&\cdots &q_m \end{matrix} \right] \left[ \begin{matrix} a_1^Tq_1&a_2^Tq_1&\cdots&a_m^Tq_1\\ a_1^Tq_2&a_2^Tq_2&\cdots&a_m^Tq_2\\ \vdots&\vdots&\ddots&\vdots\\ a_1^Tq_m&a_2^Tq_m&\cdots&a_m^Tq_m\\ \end{matrix} \right]
其中對角線以下的元素全爲0,RR 是一個上三角矩陣
[a1a2am]=[q1q2qm][a1Tq1a2Tq1amTq1a2Tq2amTq2amTqm] \left[ \begin{matrix} a1&a_2&\cdots&a_m \end{matrix} \right]= \left[ \begin{matrix} q_1&q_2&\cdots &q_m \end{matrix} \right] \left[ \begin{matrix} a_1^Tq_1&a_2^Tq_1&\cdots&a_m^Tq_1\\ &a_2^Tq_2&\cdots&a_m^Tq_2\\ & &\ddots&\vdots\\ & & &a_m^Tq_m\\ \end{matrix} \right]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章