作者水平有限，歡迎大家提出文中錯誤

正交性與正交矩陣

Gram-Schmidt正交化

$A=QR$

正交性

$0\perp any \ vector$
如果說子空間 $S$ 與子空間 $T$ 垂直， $\forall v\in S,\forall w\in T,v\perp w$
對於矩陣 $A$ ， $C(A^T)\perp N(A)$ ， $C(A)\perp N(A^T)$

標準正交矩陣

$Q\ is\ a\ orthonormal\ matrix,\ only\ if$
$q_i^Tq_j= \left\{ \begin{aligned} 0,\ if\ i\not=j\\ 1,\ if\ i=j \end{aligned} \right.$
$Q^TQ=I$
對於一般的正交矩陣上式得出了一個對角陣，對角元是各列向量長度平方

如果 $Q$ 是方陣
$Q^T=Q^{-1}$
即使 $Q_{m*n}$ 不是方陣
$Q^T_{n*m}Q_{m*n}=I_{n*n}$
同時不難得出 $Q$ 總是列滿秩的。
比如4維的 $Adhemar\ matrix$ ，矩陣中只有-1和1，但並不是所有維度的矩陣都有這種形式
$\frac{1}{2} \left[ \begin{matrix} 1&1&1&1 \\ 1&-1&1&-1\\ 1&1&-1&-1 \\ 1&-1&-1&1\\ \end{matrix} \right]$

投影矩陣

一維情況

首先考慮向一維子空間的投影， $p$ 是 $b$ 投影后的像，

$b=p+e$ ， $b^Ta=p^Ta+e^Ta$ ，

由於 $e\perp a$ ，所以 $e^Ta=0$ ，所以有 $b^Ta=p^Ta$ ，

又因爲 $a$ 與 $p$ 同向， $p^Ta=\left \| p\right \| \left \| a\right \|$ ，所以 $\frac {a^Tb}{a^Ta}=\frac{\left \| p\right \| }{ \left \| a\right \|}$ ，

所以矩陣 $\frac{aa^T}{ a^Ta}$ 是一個投影算子，也可以看出 $p$ 是子空間中距離 $b$ 最近的像

向多維情況拓展，假設投影矩陣 $P$ 可以將向量投影到 $A$ 的列空間 $C(A)$ 。

最小二乘法

在向多維情況拓展之前，首先說一下最小二乘法

考慮一個線性方程組 $Ax=b,b\notin C(A)$ ，此方程組一定是無解的，但是可以找到方程最近的一個解，通過把 $b$ 投影到 $C(A)$ 。

設此像爲 $p$ ，方程組變爲 $A\hat{x}=p$ ，

$A\hat x$ 是距離 $b$ 最近的 $C(A)$ 中的像，那麼誤差向量 $e=b-A\hat{x}$ 一定垂直於 $C(A)$ 。

所以有 $A^T(b-A\hat{x})=0$ 。（特別一提 $e\in N(A)$ ）

則 $A^TA\hat{x}=A^Tb$

此時如果 $A^TA$ 是奇異的（明顯是方陣，而且是對稱矩陣）,推導便走到了盡頭。所以下面論證 $A^TA$ 的可逆性。

若 $Ax=0$ ，那麼 $A^TAx=0$ ，則
$N(A)\subseteq N(A^TA)$
若 $A^TAx=0$ ，則 $x^TA^TAx=0$ ，則 $(Ax)^TAx=0$ ，則 $Ax=0$ ，則
$N(A^TA)\subseteq N(A)$

綜上所述， $N(A^TA)=N(A)$ ， $rank\ A^TA=rank\ A$ 。

換言之，只有當 $A$ 行滿秩或列滿秩的時候， $A^TA$ 纔是可逆的。

回到投影矩陣

上一節已經知道只有 $A$ 行滿秩或列滿秩的時候， $(A^TA)^{-1}$ 才存在，那麼我們就假設 $A$ 毫無冗餘地描述了其列空間，於是我們立馬可得
$\hat{x}=(A^TA)^{-1}A^Tb$
$A\hat{x}=A(A^TA)^{-1}A^Tb$
$p=A(A^TA)^{-1}A^Tb$
至此，投影矩陣 $P$ 已經得出
$P=A(A^TA)^{-1}A^T$
可見此矩陣與一維情況有相似之處，當 $A$ 是一個向量的時候，矩陣會退化爲其一維形式
如果 $A$ 是一個標準正交的矩陣，記作 $Q$ ，則
$P=QQ^T$

投影矩陣的若干性質

不難證明， $P$ 是對稱矩陣
$P^n=P$ ，可以輕鬆證明，不再贅述
$\forall\ v\in C(A),Pv=v$
如果 $A$ 可逆， $P=I$

再述最小二乘法

假設有一些數據構成了向量 $b_{measurement}$ ，理想條件下， $b_{measurement}$ 在矩陣方程中是有解的，但是由於測量過程中噪聲的存在， $b_{measurement}$ 偏離了真值，造成了 $Ax=b_{measurement}$ 無解，但是正如上文所說，可以將 $b_{measurement}$ 投影到 $C(A)$ 中，使得方程可解，即擬合。其實擬合的數據點足夠多可以消除噪聲的影響，得到現有數據對應的最可能解。

在 $\mathbb R^2$ 中討論
假設解爲 $y=ax+c$ ，
$\begin{bmatrix} x_1 & 1 \\ x_2 & 1\\ \vdots & \vdots\\ x_{n} & 1 \\ \end{bmatrix} \left[ \begin{matrix} a\\ c\\ \end{matrix} \right]= \left[ \begin{matrix} y_1 \\ \vdots \\ y_2 \\ y_n \\ \end{matrix} \right]$
此爲 $Ax=b_{measurement}$

方程 $A^TA\hat x=A^Tb$ 的解爲
$\left[ \begin{matrix} \hat a\\ \hat c\\ \end{matrix} \right]$
$A^TA= \left[ \begin{matrix} \sum\limits_{i=1}^nx_i^2 & \sum\limits_{i=1}^nx_i\\ \sum\limits_{i=1}^nx_i & n\\ \end{matrix} \right]$
$A^Tb= \left[ \begin{matrix} \sum\limits_{i=1}^nx_iy_i\\ \sum\limits_{i=1}^ny_i\\ \end{matrix} \right]$
解爲：
$\hat a=\frac{n\sum\limits_{i=1}^nx_iy_i-\sum\limits_{i=1}^nx_i\sum\limits_{i=1}^ny_i}{n\sum\limits_{i=1}^nx_i^2-(\sum\limits_{i=1}^nx_i)^2}, \hat c=\bar y-\hat a\bar x$
以上即爲高中數學的線性迴歸方程

而上述方法可以達到什麼最優呢？根據投影的幾何意義，投影是爲了 $\left\|b-p\right\|$ 最小
在二維的最小二乘法中， ${\left\|e\right\|}^2=\sum\limits^n_{i=1} \left[ y_i-(\hat a \bar x+\hat c) \right]^2$

$\nabla e=0$ 是我們需要求的狀態，則
$\partial_{\hat a}e=0,\ \partial_{\hat c}e=0$
這個微分方程的解和上式一樣

如果 $A$ 是一個標準正交的矩陣，記作 $Q$ ，則方程 $A^TA\hat x=A^Tb$ 化爲
$\hat x=Q^Tb$
其意義是在標準正交基 $[q_1\dots q_n]$ 下，向量 $b$ 的第 $i$ 個座標爲 $\hat x=q_i^Tb$

Gram-Schmidt正交化

通過Gram-Schmidt正交化，可以根據 $A$ 找到一組 $C(A)$ 的標準正交基

看一個 $\mathbb R^3$ 的例子

$Q= \left[ \begin{matrix} q_1 \dots q_n \end{matrix} \right]$
首先
$q_1=\frac 1{\left\|a_1\right\|}a_1$
對於 $q_2$
$a_2$ 在 $a_1$ 上的投影向量等於 $\frac{a_1a_1^T}{a_1^Ta_1}a_2$ ,則
$e_1=(I-\frac{q_1q_1^T}{q_1^Tq_1})a_2$
或者
$e_1=a_2-(q_1^Ta_2)q_1$
而 $e_1\parallel q_2$ ,所以
$q_2=\frac 1{\left\|e_1\right\|}e_1$
對於 $q_3$ ，需要先構造矩陣
$B= \left[ \begin{matrix} q_1&q_2 \end{matrix} \right]$
$a_3$ 在 $C(B)$ 上的投影爲 $B(B^TB)^{-1}B^Ta_3$ ，則
$e_2=(I-B(B^TB)^{-1}B^T)a_3$
或者
$e_2=a_3-(q_1q_1^T+q_2q_2^T)a_3$
$e_2=a_3-(q_1^Ta_3)q_1+(q_2^Ta_3)q_2$
$q_3=\frac1{\left\|e_2\right\|}e_2$
推廣到任意維空間，第 $i$ 個向量的正交化
$e_{i-1}=a_i-\sum\limits_{j=1}^{i-1}(q_j^Ta_i)q_j,\ q_i=\frac1{\left\|e_{i-1}\right\|}e_{i-1}$
注意這裏公式似乎和一些教材上的有所不同，是因爲這些教材上沒有在生成了正交基後立即對其標準化，導致 $B^TB\not=I$ ，而是一個對角陣。導致了每一項下係數不爲1。

$A=QR$

如果是消元法的矩陣形式是 $A=LU$
那麼Gram-Schmidt正交化的矩陣形式就是 $A=QR$
$\left[ \begin{matrix} a1&a_2&\cdots&a_m \end{matrix} \right]= \left[ \begin{matrix} q_1&q_2&\cdots &q_m \end{matrix} \right] \left[ \begin{matrix} a_1^Tq_1&a_2^Tq_1&\cdots&a_m^Tq_1\\ a_1^Tq_2&a_2^Tq_2&\cdots&a_m^Tq_2\\ \vdots&\vdots&\ddots&\vdots\\ a_1^Tq_m&a_2^Tq_m&\cdots&a_m^Tq_m\\ \end{matrix} \right]$
其中對角線以下的元素全爲0， $R$ 是一個上三角矩陣
$\left[ \begin{matrix} a1&a_2&\cdots&a_m \end{matrix} \right]= \left[ \begin{matrix} q_1&q_2&\cdots &q_m \end{matrix} \right] \left[ \begin{matrix} a_1^Tq_1&a_2^Tq_1&\cdots&a_m^Tq_1\\ &a_2^Tq_2&\cdots&a_m^Tq_2\\ & &\ddots&\vdots\\ & & &a_m^Tq_m\\ \end{matrix} \right]$

[筆記][總結] MIT線性代數 Gilbert Strang 正交矩陣

正交性與正交矩陣

正交性

標準正交矩陣

投影矩陣

一維情況

最小二乘法

回到投影矩陣

投影矩陣的若干性質

再述最小二乘法

Gram-Schmidt正交化

$A=QR$

sm4加密工具類

[筆記][中國大學mooc][程序設計與算法（二）算法基礎][二分算法] 派

[筆記][總結] MIT線性代數 Gilbert Strang 矩陣分解

[筆記][總結] MIT線性代數 Gilbert Strang 線性變換和基變換

[C++] 計算行列式的若干種方法

[筆記][總結] MIT線性代數 Gilbert Strang 向量空間

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

[筆記][總結] MIT線性代數 Gilbert Strang 正交矩陣

正交性與正交矩陣

正交性

標準正交矩陣

投影矩陣

一維情況

最小二乘法

回到投影矩陣

投影矩陣的若干性質

再述最小二乘法

Gram-Schmidt正交化

A=QRA=QRA=QR

$A=QR$