前言：這篇blog是《Linear Algebra and Its Applications》第三章的一些學習筆記

第三章正交

這一章引出新工具：內積，投影
重點：施密特正交化法

1. 正交向量與子空間

1.1. 內積

向量 $\alpha,\beta$ 的內積定義成 $<\alpha,\beta>=\alpha^{T}\beta$ ，可以理解成 $R^{n}\times R^{n}\rightarrow R$ 的映射，向量模的平方就是自己與自己的內積 $||x||^{2}=x^{T}x$ 。內積有如下性質：

$<\alpha,\alpha> \geq 0$
$<\alpha,\beta>=<\beta,\alpha>$
$<\alpha+\gamma,\beta>=<\alpha,\beta>+<\gamma,\beta>$
$<c\alpha,\beta>=c<\alpha,\beta>$

1.2. 矩陣四大子空間的正交關係

在 $R^{n}$ 空間，行空間與零空間正交互補，記爲 $C(A^{T})=(N(A))^{\bot}$ ，即 $dim(N(A))+dim(C(A^{T}))=n$ ， $dim()$ 表示向量空間的維度。
在 $R^{m}$ 空間，列空間與左零空間正交互補，記爲 $C(A)=(N(A^{T}))^{\bot}$ ，即 $dim(N(A^{T}))+dim(C(A))=m$ ， $dim()$ 表示向量空間的維度。

1.3. 矩陣的真正作用

如上圖所以，左邊的兩個矩形空間是行空間(row space，維度爲r)與零空間(nullspace，維度爲n-r)，它們共同構成 $R^{n}$ 空間；右邊的兩個矩形空間是列空間(column space，維度爲r)與左零空間(left nullspace，維度爲m-r)，它們共同構成 $R^{m}$ 空間。同時矩形空間之間的" $\llcorner$ "符號表示了兩個子空間之間是正交的。
從 $R^{n}$ 中找一點x，可表示爲 $x=x_{r}+x_{n}$ ， $x_{r}$ 表示行空間中的某一向量， $x_{n}$ 表示零空間中的某一向量，而矩陣 $A_{m\times n}$ 作用於 $x$ ，即 $Ax=A(x_{r}+x_{n})=Ax_{r}+0=b$ ， $b$ 是列空間中的向量。所以矩陣 $A_{m\times n}$ 的作用就是把 $C(A^{T})$ 空間中的向量映射到 $C(A)$ 空間。第六章會定義僞逆 $A^{+}$ ， $A^{+}Ax=x$ 。

2. 向量投影到向量

向量 $b$ 向向量 $a$ 的投影，設 $x=\frac{||p||}{||a||}$ ，即 $x$ 爲 $b$ 在 $a$ 上的投影向量 $p$ 的模除以 $a$ 的模，所以 $p=xa$ ，不難看出， $a^{T}e=a^{T}(b-p)=a^{T}(b-xa)=0$ 所以 $x=\frac{a^{T}b}{a^{T}a}$ 故 $p=xa=\frac{a^{T}b}{a^{T}a}a=a\frac{a^{T}b}{a^{T}a}=\frac{aa^{T}}{a^{T}a}b=Pb$ 這裏一定要意識到 $a^{T}b$ 是一個數，所以向量 $a$ 可以提到前面，再用結合律即可。
這樣我們就推出了向量 $b$ 投影到向量 $a$ 的投影矩陣 $P=\frac{aa^{T}}{a^{T}a}$ $P$ 矩陣對稱且滿足 $P^{2}=P$ ，可見該投影矩陣和向量 $b$ 沒有任何關係，如果向量 $a=(cos\theta,sin\theta)$ ，則 $P=\left[ \begin{matrix} c^{2} & cs\\ cs & s^{2} \end{matrix} \right]$ ，和第二章的二維投影矩陣吻合。

3. 向量投影到列空間與最小二乘法

3.1. 向量投影到列空間

向量 $b$ 投影到矩陣 $A$ 的列空間，設投影向量是 $A\widehat{x}$ ，其中 $\widehat{x}$ 在 $A$ 的行空間，則向量 $e=(b-A\widehat{x})$ 垂直 $A$ 的列空間，所以向量 $e$ 在矩陣 $A$ 的左零空間，所以 $A^{T}e=A^{T}(b-A\widehat{x})=0$ 所以我們得到 $A^{T}b=A^{T}A\widehat{x}$

如果向量 $b$ 不在矩陣 $A$ 的列空間，即 $e\neq 0$ ，此時 $Ax=b$ 無解，那麼向量 $b$ 在矩陣 $A$ 的列空間的投影向量 $A\widehat{x}$ 最接近 $b$ ，所以 $Ax=b$ 的近似方程是 $Ax=A\widehat{x}$ ， $Ax=b$ 近似解即爲 $\widehat{x}$ ，其依據就是最小二乘法(最小平方和)，此時 $||e||$ 最小，所以我們有了求 $\widehat{x}$ 的一般方程 $A^{T}b=A^{T}A\widehat{x}$ 如果 $A^{T}A$ 可逆，那麼 $\widehat{x}=(A^{T}A)^{-1}A^{T}b$ 我們進一步知道了求向量 $b$ 到 $A$ 的列空間的投影向量 $p=A\widehat{x}=A(A^{T}A)^{-1}A^{T}b=Pb$ 其中 $P=A(A^{T}A)^{-1}A^{T}$ 爲投影矩陣，該投影矩陣是對稱矩陣同時滿足 $P^{2}=P$ 。

所以向量不論是向空間投影，還是向另一個向量投影，投影矩陣均滿足對稱矩陣且 $P^{2}=P$ 。

3.2. 最小二乘法問題

假設求解下面的方程組，
$\begin{cases} 2x=b_{1}\\ 3x=b_{2} \\ 4x=b_{3} \end{cases}$

該方程無解，但是想求其近似解。

3.2.1. 代數法

我們用代數法，利用最小平方和求解，其誤差是 $E^{2}=(2x-b_{1})^{2}+(3x-b_{2})^{2}+(4x-b_{3})^{2}$ 對其求導取極值點 $\widehat{x}=\frac{2b_{1}+3b_{2}+4b_{3}}{2^2+3^2+4^2}$

3.2.2. 矩陣法

我們用代數法，利用最小平方和求解， $ax=\left[ \begin{matrix} 2\\ 3\\ 4 \end{matrix} \right]x=\left[ \begin{matrix} b_{1}\\ b_{2}\\ b_{3} \end{matrix} \right]=b$

其解就是向量 $b$ 在 $a$ 列空間上的投影，在映射回 $a$ 的行空間，其一般方程爲 $a^{T}b=a^{T}a\widehat{x}$ 所以近似解爲 $\widehat{x}=\frac{a^{T}b}{a^{T}a}$ ，直接就可以求出來。

4. 正交基，Gram-Schmidt正交化法

4.1. 正交基

4.1.1. 正交矩陣

正交矩陣是列向量相互正交且列向量模爲1的矩陣；正交方陣是限定爲方陣的正交矩陣，記爲 $Q$ ，一般提及正交矩陣默認就是正交方陣，這篇blog後面提及的正交矩陣也是正交方陣。
正交矩陣有如下性質

$Q^{T}Q=1$
$Q^{T}=Q^{-1}$

4.1.2. 正交變換

正交矩陣 $Q$ 作爲變換矩陣，乘以向量x，稱爲正交變換。正交變換不改變向量 $x$ 的角度和長度。

4.1.3. 正交矩陣列空間的正交基

考慮正交變換 $Qx=\left[ \begin{matrix} q_{1},q_{2}\dots q_{n} \end{matrix} \right]x=b$

其中 $q_{i}$ 均是相互正交的單位列向量，則 $x=Q^{-1}b=Q^{T}b=\left[ \begin{matrix} q_{1}^{T}\\ q_{2}^{T}\\ \dot{\dot{·}}\\ q_{n}^{T} \end{matrix} \right]b=\left[ \begin{matrix} q_{1}^{T}b\\ q_{2}^{T}b\\ \dot{\dot{·}}\\ q_{n}^{T}b \end{matrix} \right]$

所以 $b=Qx=\left[ \begin{matrix} q_{1},q_{2}\dots q_{n} \end{matrix} \right]\left[ \begin{matrix} q_{1}^{T}b\\ q_{2}^{T}b\\ \dot{\dot{·}}\\ q_{n}^{T}b \end{matrix} \right]=\left[ \begin{matrix} (q_{1}^{T}b)q_{1}\\ (q_{2}^{T}b)q_{2}\\ \dot{\dot{·}}\\ (q_{n}^{T}b)q_{n} \end{matrix} \right]$

由於 $q_{i}$ 是單位列向量，所以 $(q_{i}^{T}b)q_{i}$ 是向量 $b$ 在向量 $q_{i}$ 上的投影向量( $\frac{q_{i}^{T}b}{q_{i}^{T}q_{i}}q_{i}=q_{i}^{T}bq_{i}$ )，所以向量 $b$ 向 $q_{1},q_{2}\dots q_{n}$ 的各自的投影向量形成的向量 $((q_{1}^{T}b)q_{1},(q_{2}^{T}b)q_{2}\dots(q_{n}^{T}b)q_{n})^{T}$ 就是 $b$ 自己，所以 $q_{1},q_{2}\dots q_{n}$ 就是 $Q$ 的列空間的標準正交基。

4.2. Schmidt正交化法(施密特正交化法)

由一組相互獨立的向量產生標準正交向量的方法。具體來看，給定獨立的一組向量 $a,b,c,d\dots$ 標準正交的第一個向量就是單純的標準化即可 $q_{1}=\frac{a}{||a||}$ 第二個標準正交向量的產生是在 $q_{1}$ 基礎上的 $A_{2}=b-(q_{1}^{T}b)q_{1}\\q_{2}=\frac{A_{2}}{||A_{2}||}$ 第三個標準正交向量的產生是在 $q_{1}$ 與 $q_{2}$ 基礎上的 $A_{3}=c-(q_{1}^{T}c)q_{1}-(q_{2}^{T}c)q_{2}\\q_{3}=\frac{A_{3}}{||A_{3}||}$

$\dots$

$A_{j}=a_{j}-(q_{1}^{T}a_{j})q_{1}-(q_{2}^{T}a_{j})q_{2}-\dots-(q_{j-1}^{T}a_{j})q_{j-1} \\q_{j}=\frac{A_{j}}{||A_{j}||}$

後面產生的標準正交向量是踩在前面的已經產生的標準正交向量上面產生的。

4.3. 矩陣的正交分解

對矩陣 $A$ ，其列向量要求線性無關，有正交分解
$A=QR$

其中 $Q$ 是正交矩陣， $R$ 是上三角矩陣。其基本思路就是對A的列向量進行Schmidt正交化法，以三階爲例 $A=[a,b,c]=[q_{1},q_{2},q_{3}]\left[ \begin{matrix} q_{1}^{T}a & q_{1}^{T}b & q_{1}^{T}c\\ 0 & q_{2}^{T}b & q_{2}^{T}c\\ 0 & 0 & q_{3}^{T}c \end{matrix} \right]=QR$

$R$ 的對角線元素的乘積是 $A$ 的列向量構成的多面體的體積。我們可以通過推廣平行四邊形的面積求法來理解，平行四邊形的面積是底乘以高，平行六面體的體積是底乘以高在乘以垂直這條底和高的第三條高， $\dots$ ， $q_{1}^{T}a$ 可以理解成底， $q_{2}^{T}b$ 是垂直於 $q_{1}^{T}a$ 的高， $q_{3}^{T}c$ 是垂直於 $q_{1}^{T}a$ 和 $q_{2}^{T}b$ 的第三條高 $\dots$ ，相乘就是體積。

4.4. Hilbert空間

把 $R^{n}\rightarrow R^{\infty}$ ，即Hilbert空間中的向量是無窮維的，Hilbert空間包含所有的無窮維向量。

5. 應用：快速傅里葉變換(FFT)

FFT可以說是20世紀發現的算法中，重要程度排名前三的算法。這裏從傅里葉級數開始，引出FFT。

5.1. 傅里葉級數

我們先看向量空間V，向量 $b$ 在V中，V中有基 $q_{1},q_{2}\dots q_{n}$ ，則 $b=x_{1}q_{1}+x_{2}q_{2}+\dots +x_{n}q_{n}$ 。
類比上面的向量空間，設函數空間F，函數 $f$ 在函數空間F中，F中有基 $1,cosx,sinx,cos2x,sin2x,cos3x \dots$ ，F的維度是 $\infty$ ，則 $f=a_{0}+a_{1}cosx+b_{1}sinx+a_{2}cos2x+b_{2}sin2x+\dots$ ， $f$ 用F中的基表示的等式的係數，就是傅里葉級數。
同時，類比的還有向量內積 $\longrightarrow$ 函數內積，向量正交 $\longrightarrow$ 函數正交。 $向量內積：v^{T}w=v_{1}w_{1}+v_{2}w_{2}\dots v_{n}w_{n}$ $\downarrow$ $函數內積：\int_{0}^{2\pi}f(x)g(x)dx$
$向量正交：v^{T}w=0$ $\downarrow$ $函數正交：\int_{0}^{2\pi}f(x)g(x)dx=0$

傅里葉級數求解有對應的公式，這裏不是重點就不列出，百度就行。

傅里葉變換利用傅里葉級數，把信號進行傅里葉分解，就知道了信號在各個頻率分量上的佔比(傅里葉級數)。

5.2. 離散傅里葉變換

利用傅里葉級數的的傅里葉變換維度是無限維的，這一點在工程應用中十分不便，因此提出了維度是有限長的快速傅里葉變換。
輸入： $Y=[y_{0},y_{1},y_{2}\dots y_{n-1}]$ ， $Y$ 是對原連續信號採樣，採樣越密，越能表示原信號。
輸出： $C=[c_{0},c_{1},c_{2}\dots c_{n-1}]$
線性關係： $FC=Y$ ， $F$ 爲傅里葉矩陣，是對稱復矩陣，也是復矩陣最有名的應用。
傅里葉矩陣 $F_{n}$ 如下 $F_{n}=\left[ \begin{matrix} 1 & 1 & 1 & \dots & 1\\ 1 & w_{n} & w^{2}_{n} & \dots & w^{n-1}_{n}\\ \dot{\dot{·}}&&&&\dot{\dot{·}}\\ 1 & w^{n-1}_{n} & w^{2(n-1)}_{n} & \dots &w_{n}^{(n-1)(n-1)} \end{matrix} \right]$ 其中 $(F_{n})_{ij}=w^{ij}，i,j=0,1 \dots n-1$ ，且 $w^{n}_{n}=1$ ，即 $w_{n}=e^{i\frac{2\pi}{n}}$ 。下面是n=4時的傅里葉矩陣 $F_{4}$ ， $w_{4}=e^{i\frac{\pi}{2}}=i$ ， $F_{4}=\left[ \begin{matrix} 1 & 1 & 1 & 1\\ 1 & i & -1 & -i\\ 1 & -1 & 1 &-1\\ 1 & -i & -1 & i \end{matrix} \right]$

同時，傅里葉矩陣 $F_{n}$ 的逆的求解也很方便： $F_{n}^{-1}=\frac{1}{n}\overline{F_{n}}$ 其中 $\overline{F_{n}}$ 爲 $F_{n}$ 的共軛。

5.3. 快速傅里葉變換

離散傅里葉變換需要 $n^{2}$ 個乘法，下面給出一種利用矩陣分解化簡乘法運算次數的方法。以n=64爲例，且 $w_{64}^{2}=w_{32}$ ，傅里葉矩陣 $F_{64}$ 分解如下：

$\begin{aligned} \left[ \begin{matrix} F_{64} \end{matrix} \right]&=\left[ \begin{matrix} I & D_{32}\\ I & -D_{32} \end{matrix} \right]\left[ \begin{matrix} F_{32} & 0\\ 0 & F_{32} \end{matrix} \right]\left[ \begin{matrix} P_{64} \end{matrix} \right] \\ &=\left[ \begin{matrix} I & D_{32}\\ I & -D_{32} \end{matrix} \right]\left[ \begin{matrix} I & D_{16} & 0 & 0\\ I & -D_{16} & 0 & 0\\ 0 & 0 & I & D_{16}\\ 0 & 0 & I & -D_{16} \end{matrix} \right]\left[ \begin{matrix} F_{16} & 0 & 0 & 0\\ 0 & F_{16} & 0 & 0\\ 0 & 0 & F_{16} & 0\\ 0 & 0 & 0 & F_{16} \\ \end{matrix} \right]\left[ \begin{matrix} P_{32} & 0\\ 0 & P_{32} \end{matrix} \right]\left[ \begin{matrix} P_{64} \end{matrix} \right] \\ & \dots \end{aligned}$

其中 $P$ 是置換矩陣，把偶數行提到奇數行前的置換矩陣， $D$ 是對角矩陣， $D_{n}=\left[ \begin{matrix} 1\\ &w\\ &&w^{2}\\ &&&·\\ &&&&w^{n-1} \end{matrix} \right]$

考慮乘法運算， $\begin{aligned} 64^{2}次乘法&\longrightarrow32+32^{2}+0 \\ &\longrightarrow 32+(16+16^{2}\times 2)\times 2=32+32+16^{2}\times 4 \\ &\longrightarrow32+32+(8+8^{2}\times 2)\times 4 = 32+32+32+8^{2}\times 8\\ &\dots \\ &\longrightarrow 6\times 32+64 \end{aligned}$ 注意這裏乘以 $I$ 和 $P$ 開銷不大，因此在考慮乘法運算開銷時沒有考慮(乘法開銷記爲0)。故FFT使得乘法運算次數變爲 $n^{2}\longrightarrow \frac{n}{2}log_{2}^{n}+n=O(nlogn)$
以n=1024爲例，這在計算機實際應用中根本不算大的數字，但FFT使得其乘法運算次數減少近200倍。

參考書籍
《Linear Algebra and Its Applications》

線性代數及其應用：第三章 正交

文章目錄

第三章 正交