前言

看完這個視頻後我產生了和作者不一樣的理解方式，《Linear Algebra Done Right》這本書中提供了支撐作者視頻中基變換可視化背後更嚴謹的數學內涵，我的理解方式與書中的觀點保持一致，這恰好可以與視頻作者的類比式的講解互爲補充。

爲了能更好的描述清楚這部分的內容，全篇內容在語言組織上有點囉嗦，但是目的只是爲了更好地描述清楚數學概念之間的對應關係。

正文將分爲三個部分：基變換、什麼是相似矩陣、特徵值和特徵向量的應用。

基變換

先補充一些所需的基礎數學知識（以下均以二維空間展開論述）：

基礎知識

二維向量空間 $V$ ，可以由標準正交基 $\vec{v_1}=\begin{bmatrix}1 \\ \\0\end{bmatrix}$ 和 $\vec{v_2}=\begin{bmatrix}0 \\ \\ 1\end{bmatrix}$ 張成；二維向量空間 $W$ ，可以由兩個基 $\vec{w_1}=\begin{bmatrix}2 \\ \\ 1\end{bmatrix}$ 和 $\vec{w_2}=\begin{bmatrix}-1 \\ \\ \ \ \ 1\end{bmatrix}$ 張成。
再來看看這兩組基底之間如何相互表示：
$\left\{ \begin{aligned} \vec{w_1} & = & 2\vec{v_1}+1\vec{v_2} \\ \\ \vec{w_2} & = & -1\vec{v_1}+1\vec{v_2} \\ \end{aligned} \right. \quad and \quad \left\{ \begin{aligned} \vec{v_1} & = & \frac{1}{3}\vec{w_1}+ \frac{-1}{3}\vec{w_2} \\ \\ \vec{v_2} & = & \frac{1}{3}\vec{w_1}+ \frac{\ \ \ 2}{3}\vec{w_2} \\ \end{aligned} \right.$
現在考慮線性映射 $T$ ：
$T: \ \ V \rightarrow W$
事實上，線性映射可以通過基的變換唯一確定下來，也就是說，當空間 $V$ 中的兩個基 $\vec{v_1}$ 和 $\vec{v_2}$ 分別被 $T$ 映射爲空間 $W$ 中的基 $\vec{w_1}$ 和 $\vec{w_2}$ 的同時，也實現了整個空間 $V$ 和空間 $W$ 之間的變換。並且有如下的結論：
$for \ \ \ \vec{v}=c_1\vec{v_1}+c_2\vec{v_2}, \ \ there \ \ is, \ \ \ T(c_1\vec{v_1}+c_2\vec{v_2})=c_1\vec{w_1}+c_2\vec{w_2}$

我們不禁想到，如何用數學手段將線性變換 $T$ 直觀地描述出來呢？

從上面的討論中看到，建立兩個空間相互聯繫的線性變換 $T$ ，直接地依賴於兩個空間的基底。因而直觀地表達 $T$ 還需要說明變換前後的空間的基底分別是什麼。

線性映射 $T$ 的矩陣

$M(T)= \begin{bmatrix} a & c \\ \\ b & d \\ \end{bmatrix}$
該矩陣是對將由以 $\vec{v_1},\vec{v_2}$ 爲基底的空間 $V$ 映射到以 $\vec{w_1},\vec{w_2}$ 爲基底的空間 $W$ 的線性映射 $T$ 的一種記錄，這個矩陣清楚地記錄了空間 $V$ 中的兩個基 $\vec{v_1},\vec{v_2}$ 在被 $T$ 映射到空間 $W$ 後如何被 $W$ 中的兩個基 $\vec{w_1},\vec{w_2}$ 所線性表出：

$\left\{ \begin{aligned} T(\vec{v_1}) & = & a\vec{w_1}+b\vec{w_2} \\ \\ T(\vec{v_2}) & = & c\vec{w_1}+d\vec{w_2} \\ \end{aligned} \right.$

可以把 $a$ ， $b$ 和 $c$ ， $d$ 分別直觀地看作是以 $\vec{w_1}$ 和 $\vec{w_2}$ 爲基底下的兩個被映射後的基向量的新座標。試想一下，假如有一個向量 $\begin{bmatrix}-1 \\ \\ \ \ \ 2\end{bmatrix}$ ，這個向量的兩個數值表示了一組基底下的座標。

值得注意的是：在空間 $V$ 的世界裏和空間 $W$ 的世界裏這組座標的含義是不同的：

對於空間 $\ V$ ，向量 $\begin{bmatrix}-1 \\ \\ \ \ \ 2\end{bmatrix}$ 代表着： $-1\vec{v_1}+2\vec{v_2}$
對於空間 $W$ ，向量 $\begin{bmatrix}-1 \\ \\ \ \ \ 2\end{bmatrix}$ 代表着： $-1\vec{w_1}+2\vec{w_2}$

爲了將這種表示過程抽象出來，就有了我們對於向量的矩陣這個概念的定義。

向量的矩陣

$M(\vec{v})=\begin{bmatrix}x \\ \\ y\end{bmatrix} \quad under \quad \vec{v_1},\vec{v_2}$

這樣一個矩陣就代表着： $\vec{v}=x\vec{v_1}+y\vec{v_2}$ ，這個概念和線性映射的矩陣概念相似，都依賴於基底的選取。

分類討論

情況1

若矩陣 $\begin{bmatrix}-1 \\ \\ 2\end{bmatrix}$ 代表着： $-1\vec{v_1}+2\vec{v_2}$ ，就代表着我們是站在空間 $\ V$ 的視角下看待所有的向量，那麼如果我們要想知道站在空間 $W$ 的視角下，矩陣 $\begin{bmatrix}-1 \\ \\ 2\end{bmatrix}$ 會變成什麼樣，又該怎麼得到呢？

根據前面的知識，線性映射 $T$ 可以把 $\vec{v_1}$ 和 $\vec{v_2}$ 映射爲：
$\left\{ \begin{aligned} T(\vec{v_1}) & = & \frac{1}{3}\vec{w_1}+\frac{-1}{3}\vec{w_2} \\ \\ T(\vec{v_2}) & = & \frac{1}{3}\vec{w_1}+\frac{\ \ \ 2}{3}\vec{w_2} \\ \end{aligned} \right.$
既然矩陣 $\begin{bmatrix}-1 \\ \\ 2\end{bmatrix}$ 又代表着： $-1\vec{v_1}+2\vec{v_2}$ ，那麼就有：

$T(\begin{bmatrix}-1 \\ \\ 2\end{bmatrix})= \quad -1\begin{bmatrix}\ \frac{1}{3} \\ \\ -\frac{1}{3}\end{bmatrix} + 2\begin{bmatrix}\frac{1}{3} \\ \\ \frac{2}{3}\end{bmatrix} = \begin{bmatrix}\frac{1}{3} \\ \\ \frac{5}{3}\end{bmatrix}$

現在我們知道了站在空間 $W$ 的視角下，以 $\vec{v_1}$ 和 $\vec{v_2}$ 爲基底的矩陣 $\begin{bmatrix}-1 \\ \\ 2\end{bmatrix}$ 會被映射爲以 $\vec{w_1}$ 和 $\vec{w_2}$ 爲基底的矩陣 $\begin{bmatrix}\frac{1}{3} \\ \\ \frac{5}{3}\end{bmatrix}$ ，代表的含義是 $\frac{1}{3}\vec{w_1}+\frac{5}{3}\vec{w_2}$ 。

但我們回顧一下會發現這個映射的運算過程表達起來並不那麼優雅，那麼該如何更優雅地展現出來呢？

一個定理給出了答案：

定理：線性映射的作用類似於矩陣乘

$for \quad \vec{v} \quad under \quad \vec{v_1},\vec{v_2} \quad in \ \ \ V \quad and \quad \vec{w} \quad under \quad \vec{w_1},\vec{w_2} \quad in \ \ \ W, \\ \\ there \quad is, \\ M(\ T(\vec{v}) \ ) = M(T)M(\vec{v})$
那麼，上面的過程其實就是：
$\begin{bmatrix}\frac{1}{3} \\ \\ \frac{5}{3}\end{bmatrix}=\begin{bmatrix} \ \ \ \frac{1}{3} & \frac{1}{3} \\ \\ -\frac{1}{3} & \frac{2}{3} \\ \end{bmatrix} \begin{bmatrix} -1 \\ \\ 2\end{bmatrix}$

情況2

有了前面的基礎，我們可以更清晰地理解這種不同基底之間的轉換關係。

若矩陣 $\begin{bmatrix}-1 \\ \\ 2\end{bmatrix}$ 代表着： $-1\vec{w_1}+2\vec{w_2}$ ，就代表着我們是站在空間 $W$ 的視角下看待所有的向量，要想知道站在空間 $V$ 的視角下，矩陣 $\begin{bmatrix}-1 \\ \\\ 2\end{bmatrix}$ 會變成什麼樣，只需要分別知道基底 $\vec{w_1}$ 和 $\vec{w_2}$ 在基底 $\vec{v_1}$ 和 $\vec{v_2}$ 下的座標即可。

$\vec{w_1}$ 在基底 $\vec{v_1}$ 和 $\vec{v_2}$ 下被書寫爲矩陣 $\begin{bmatrix}2 \\ \\ 1\end{bmatrix}$ ，同理 $\vec{w_2}$ 被書寫爲矩陣 $\begin{bmatrix}-1 \\ \\ 1\end{bmatrix}$ 。因此有：

$\begin{bmatrix} 2 & -1 \\ \\ 1 & \ \ \ 1 \\ \end{bmatrix} \begin{bmatrix} -1 \\ \\ 1\end{bmatrix}= \begin{bmatrix}-4 \\ \\ 1\end{bmatrix}$

空間 $V$ 中的矩陣 $\begin{bmatrix}-4 \\ \\ 1\end{bmatrix}$ 就是空間 $W$ 中的矩陣 $\begin{bmatrix}-1 \\ \\ 2\end{bmatrix}$ 被線性變換後的結果。

補充

一個線性映射 $T$ 不光可以理解爲實現兩個空間 $V$ 和 $W$ 之間的變換，還可以看作是同一空間 $V$ 內的算子。所謂算子，就是實現同一個空間 $V \rightarrow V$ 的線性映射，這種線性映射根據基底的選取方式不同可以分爲兩種：

映射前後選取的都是同一組基底。即： $T:V \rightarrow V$ ，箭頭左邊的基底是 $\vec{v_1},\vec{v_2}$ ，箭頭右邊的基底還是 $\vec{v_1},\vec{v_2}$ 。

映射前後選取了兩組不同的基底。即： $T:V \rightarrow V$ ，箭頭左邊的基底是 $\vec{v_1},\vec{v_2}$ ，但是箭頭右邊卻選用基底 $\vec{w_1},\vec{w_2}$ 。

值得說明的是，這兩種看待 $T$ 的新角度對於我們理解下面的論述會很有幫助。

什麼是相似矩陣

問題背景

如下兩圖展現了一個在標準正交基下逆時針選擇90度的線性映射（實質上是一個算子）：
映射前後二維空間座標系統的基底沒有發生改變，始終是標準正交基 $\vec{v_1},\vec{v_2}$ 。
這個算子可以記錄爲矩陣的形式（以上節補充部分的角度1去看待）：
$M=\begin{bmatrix} 0 & -1 \\ \\ 1 & \ \ \ 0 \\ \end{bmatrix}$

值得注意的是：二維向量空間 $V$ 及其含有的全體向量本身，並不依賴於基底的選取。變換前的向量 $\vec{v}$ 本身在標準正交基 $\vec{v_1},\vec{v_2}$ 下可以由一組座標來表示，但是換一組基底 $\vec{w_1},\vec{w_2}$ 來表達空間中同一個向量 $\vec{v}$ 就會產生另一組座標。

這不禁讓我們產生了這樣一個問題：對於同一個“逆時針旋轉90度”的變換本身而言，站在變換前後都爲基底 $\vec{v_1},\vec{v_2}$ 的視角下，可以用 $M=\begin{bmatrix} 0 & -1 \\ \\ 1 & \ \ \ 0 \\ \end{bmatrix}$ 來描述，但是站在變換前後都爲另一組基底 $\vec{w_1},\vec{w_2}$ 的視角下，應該如何描繪這同一個變換呢？

分析

接下來我們仍用 $\vec{w_1}=\begin{bmatrix}2 \\ \\ 1\end{bmatrix}$ 和 $\vec{w_2}=\begin{bmatrix}-1 \\ \\1\end{bmatrix}$ 這組非標準正交基 $\vec{v_1},\vec{v_2}$ 的基底體系爲例，展開下面的論述：

我們的總體思路是：在求出變換前以 $\vec{w_1},\vec{w_2}$ 爲基底的向量 $\vec{w}$ 經逆時針旋轉90度這樣一個變換後，變爲的仍以 $\vec{w_1},\vec{w_2}$ 爲基底的 $\vec{w'}$ 座標會是什麼的過程中，間接地求出我們想要的答案。

詳細步驟

步驟1

由前面的知識可以知道：矩陣 $A=\begin{bmatrix} 2 & -1 \\ \\ 1 & \ \ \ 1 \\ \end{bmatrix}$ 可以用來描述由 $V \rightarrow V$ ，箭頭左邊以 $\vec{w_1},\vec{w_2}$ 爲底，右邊箭頭以標準正交基 $\vec{v_1},\vec{v_2}$ 爲底的一個線性映射。

我們先把向量 $\vec{w}$ 變換爲在體系 $\vec{v_1},\vec{v_2}$ 中的等價表示，並記作 $\vec{v}$ 。那麼就有：
$\vec{v}= A\vec{w}= \begin{bmatrix} 2 & -1 \\ \\ 1 & \ \ \ 1 \\ \end{bmatrix} \vec{w}$

步驟2

有了向量 $\vec{v}$ 後就容易處理了，因爲我們知道，始終在體系 $\vec{v_1},\vec{v_2}$ 下的線性變換（算子）就是 $M=\begin{bmatrix} 0 & -1 \\ \\ 1 & \ \ \ 0 \\ \end{bmatrix}$ ，對向量 $\vec{v}$ 施加 $M$ （即經旋轉90度變換）後，可以得到新的向量 $\vec{v'}$ ：
$\vec{v'}= M\vec{v}= MA\vec{w}= \begin{bmatrix} 0 & -1 \\ \\ 1 & \ \ \ 0 \\ \end{bmatrix} \begin{bmatrix} 2 & -1 \\ \\ 1 & \ \ \ 1 \\ \end{bmatrix} \vec{w}$

步驟3

我們說，其實在體系 $\vec{v_1},\vec{v_2}$ 下被表示的向量 $\vec{v'}$ 就是在 $\vec{w_1},\vec{w_2}$ 體系下的 $\vec{w'}$ ，因而我們最終再進行一步轉化，進行步驟1中基底變換的反變換即可：

$\vec{w'}= A^{-1}\vec{v'}= A^{-1}MA\vec{w}= \begin{bmatrix} 2 & -1 \\ \\ 1 & \ \ \ 1 \\ \end{bmatrix}^{-1} \begin{bmatrix} 0 & -1 \\ \\ 1 & \ \ \ 0 \\ \end{bmatrix} \begin{bmatrix} 2 & -1 \\ \\ 1 & \ \ \ 1 \\ \end{bmatrix} \vec{w}$

總結

現在我們知道了，在 $\vec{v_1},\vec{v_2}$ 體系下用 $M$ 來描述一個逆時針旋轉90度的變換，而在 $\vec{w_1},\vec{w_2}$ 體系下就可以用 $A^{-1}MA$ 來描述同樣一個逆時針旋轉90度的變換。我們因而可以推廣一下，所謂的相似矩陣，可理解爲：就是同一空間下采用的不同基底體系對待同一個變換的不同描述而已。

特徵值和特徵向量的應用

問題背景

空間 $V$ 中有基底 $\vec{v_1},\vec{v_2}$ 以及該基底下的向量 $\vec{v}=\begin{bmatrix}2 \\ \\ 1\end{bmatrix}$ 如圖：

考慮映射前後都以 $\vec{v_1},\vec{v_2}$ 爲基底的算子 $A= \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix}$ 映向量 $\vec{v}$ 爲：
$A(\vec{v})= \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix} \begin{bmatrix}2 \\ \\ 1\end{bmatrix}= \begin{bmatrix}7 \\ \\ 2\end{bmatrix}$
這看起來似乎相當容易。然而在實際應用中，這種變換都會進行許多許多次，以進行5次爲例：
$\vec{v'}=A^5(\vec{v})= \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix} \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix} \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix} \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix} \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix} \begin{bmatrix}2 \\ \\ 1\end{bmatrix}= \begin{bmatrix}? \\ \\ ?\end{bmatrix}$
這個計算過程讓人頭疼。那麼如何簡化呢？根據我們前面的知識，或許我們可以從變換的視角（變換基底）這種方式尋求答案。

分析

首先求出矩陣 $A$ 的特徵值和相應的特徵向量，這裏不再詳細展開如何去求，直接給出結果：可以求出對應於特徵值 $3$ 的特徵向量爲 $\vec{w_1}=\begin{bmatrix}1 \\ \\ 0\end{bmatrix}$ ，對應於特徵值 $2$ 的特徵向量爲 $\vec{w_2}=\begin{bmatrix}-1 \\ \\ 1\end{bmatrix}$ 。

接下來，我們把這兩個特徵向量組成 $V$ 的基底，重新建立空間 $V$ 的座標體系。
令映射前以 $\vec{w_1},\vec{w_2}$ 爲基底，映射後以 $\vec{v_1},\vec{v_2}$ 爲基底的算子 $P$ 爲：
$P= \begin{bmatrix} 1 & -1 \\ \\ 0 & \ \ \ 1 \\ \end{bmatrix}$

由相似矩陣部分的知識我們知道，體系 $\vec{v_1},\vec{v_2}$ 對變換的描述是 $A$ ，那麼體系 $\vec{w_1},\vec{w_2}$ 對這個變換的描述就是 $P^{-1}AP$ ，記作 $A'$ ：
$A'= P^{-1}AP= \begin{bmatrix} 3 & 0 \\ \\ 0 & 2 \\ \end{bmatrix}$

$A'$ 這個對角矩陣中，對角線上的兩個元素一定會是對應於相應的特徵向量的特徵值。（這一點可以花點時間想想是爲什麼）

值得指出：對體系 $\vec{v_1},\vec{v_2}$ 下的 $\vec{v}$ ，可以找出它在體系 $\vec{w_1},\vec{w_2}$ 下的等價向量 $\vec{w}$ 。

那麼我們就有一個等價關係：對 $\vec{v}$ 在體系 $\vec{v_1},\vec{v_2}$ 下施以 $A$ ，效果等價於對 $\vec{w}$ 在體系 $\vec{w_1},\vec{w_2}$ 下施以 $A'$ 。

爲了實現我們的終極目標：對 $\vec{v}$ 施以 $A^5$ 求出體系 $\vec{v_1},\vec{v_2}$ 下的 $\vec{v'}$ ，我們率先把 $\vec{v}$ 變換爲體系 $\vec{w_1},\vec{w_2}$ 下的 $\vec{w}$ ，對 $\vec{w}$ 施以 $(A')^5$ 求出體系 $\vec{w_1},\vec{w_2}$ 下的 $\vec{w'}$ （這樣做的原因是 $A'$ 是對角矩陣，求 $A'$ 的各次冪次都極爲簡單），再最後把 $\vec{w'}$ 變換回體系 $\vec{v_1},\vec{v_2}$ 下的 $\vec{v'}$ 就是我們的所求了。

詳細步驟

步驟1

$P^{-1}$ 將 $\vec{v}$ 體系轉化爲 $\vec{w}$ 體系：
$\vec{w}=P^{-1}\vec{v}$

步驟2

對 $\vec{w}$ 體系下的向量 $\vec{w}$ 施加變換 $(A')^{5}$ 得到 $\vec{w'}$ ：
$\vec{w'}=(A')^{5}\vec{w}=(A')^{5}P^{-1}\vec{v}$

步驟3

將 $\vec{w}$ 體系下的向量 $\vec{w'}$ 重新變換爲其在 $\vec{v}$ 體系下的等價向量 $\vec{v'}$ ：
$\vec{v'}=P\vec{w'}=P(A')^{5}P^{-1}\vec{v}$

總結

經過這種來來回回的變換，我們最終成功地繞開了計算 $\vec{v'}=A^5\vec{v}$ 的困擾，另闢了蹊徑使得計算量下降，這種優勢在冪次更高時有更好的體現。

補充

文中的空間到空間之間的變換更規範的寫法是箭頭 $\mapsto$ ，表示”maps to“，而不是我在文章中用的 $\to$

3bulue1brown線性代數系列學習筆記02-基變換與特徵值

前言

基變換

基礎知識

線性映射 TTT 的矩陣

向量的矩陣

分類討論

情況1

定理：線性映射的作用類似於矩陣乘

情況2

補充

什麼是相似矩陣

問題背景

分析

詳細步驟

步驟1

步驟2

步驟3

總結

特徵值和特徵向量的應用

問題背景

分析

詳細步驟

步驟1

步驟2

步驟3

總結

補充

線性映射 $T$ 的矩陣