前言

看完这个视频后我产生了和作者不一样的理解方式，《Linear Algebra Done Right》这本书中提供了支撑作者视频中基变换可视化背后更严谨的数学内涵，我的理解方式与书中的观点保持一致，这恰好可以与视频作者的类比式的讲解互为补充。

为了能更好的描述清楚这部分的内容，全篇内容在语言组织上有点啰嗦，但是目的只是为了更好地描述清楚数学概念之间的对应关系。

正文将分为三个部分：基变换、什么是相似矩阵、特征值和特征向量的应用。

基变换

先补充一些所需的基础数学知识（以下均以二维空间展开论述）：

基础知识

二维向量空间 $V$ ，可以由标准正交基 $\vec{v_1}=\begin{bmatrix}1 \\ \\0\end{bmatrix}$ 和 $\vec{v_2}=\begin{bmatrix}0 \\ \\ 1\end{bmatrix}$ 张成；二维向量空间 $W$ ，可以由两个基 $\vec{w_1}=\begin{bmatrix}2 \\ \\ 1\end{bmatrix}$ 和 $\vec{w_2}=\begin{bmatrix}-1 \\ \\ \ \ \ 1\end{bmatrix}$ 张成。
再来看看这两组基底之间如何相互表示：
$\left\{ \begin{aligned} \vec{w_1} & = & 2\vec{v_1}+1\vec{v_2} \\ \\ \vec{w_2} & = & -1\vec{v_1}+1\vec{v_2} \\ \end{aligned} \right. \quad and \quad \left\{ \begin{aligned} \vec{v_1} & = & \frac{1}{3}\vec{w_1}+ \frac{-1}{3}\vec{w_2} \\ \\ \vec{v_2} & = & \frac{1}{3}\vec{w_1}+ \frac{\ \ \ 2}{3}\vec{w_2} \\ \end{aligned} \right.$
现在考虑线性映射 $T$ ：
$T: \ \ V \rightarrow W$
事实上，线性映射可以通过基的变换唯一确定下来，也就是说，当空间 $V$ 中的两个基 $\vec{v_1}$ 和 $\vec{v_2}$ 分别被 $T$ 映射为空间 $W$ 中的基 $\vec{w_1}$ 和 $\vec{w_2}$ 的同时，也实现了整个空间 $V$ 和空间 $W$ 之间的变换。并且有如下的结论：
$for \ \ \ \vec{v}=c_1\vec{v_1}+c_2\vec{v_2}, \ \ there \ \ is, \ \ \ T(c_1\vec{v_1}+c_2\vec{v_2})=c_1\vec{w_1}+c_2\vec{w_2}$

我们不禁想到，如何用数学手段将线性变换 $T$ 直观地描述出来呢？

从上面的讨论中看到，建立两个空间相互联系的线性变换 $T$ ，直接地依赖于两个空间的基底。因而直观地表达 $T$ 还需要说明变换前后的空间的基底分别是什么。

线性映射 $T$ 的矩阵

$M(T)= \begin{bmatrix} a & c \\ \\ b & d \\ \end{bmatrix}$
该矩阵是对将由以 $\vec{v_1},\vec{v_2}$ 为基底的空间 $V$ 映射到以 $\vec{w_1},\vec{w_2}$ 为基底的空间 $W$ 的线性映射 $T$ 的一种记录，这个矩阵清楚地记录了空间 $V$ 中的两个基 $\vec{v_1},\vec{v_2}$ 在被 $T$ 映射到空间 $W$ 后如何被 $W$ 中的两个基 $\vec{w_1},\vec{w_2}$ 所线性表出：

$\left\{ \begin{aligned} T(\vec{v_1}) & = & a\vec{w_1}+b\vec{w_2} \\ \\ T(\vec{v_2}) & = & c\vec{w_1}+d\vec{w_2} \\ \end{aligned} \right.$

可以把 $a$ ， $b$ 和 $c$ ， $d$ 分别直观地看作是以 $\vec{w_1}$ 和 $\vec{w_2}$ 为基底下的两个被映射后的基向量的新座标。试想一下，假如有一个向量 $\begin{bmatrix}-1 \\ \\ \ \ \ 2\end{bmatrix}$ ，这个向量的两个数值表示了一组基底下的座标。

值得注意的是：在空间 $V$ 的世界里和空间 $W$ 的世界里这组座标的含义是不同的：

对于空间 $\ V$ ，向量 $\begin{bmatrix}-1 \\ \\ \ \ \ 2\end{bmatrix}$ 代表着： $-1\vec{v_1}+2\vec{v_2}$
对于空间 $W$ ，向量 $\begin{bmatrix}-1 \\ \\ \ \ \ 2\end{bmatrix}$ 代表着： $-1\vec{w_1}+2\vec{w_2}$

为了将这种表示过程抽象出来，就有了我们对于向量的矩阵这个概念的定义。

向量的矩阵

$M(\vec{v})=\begin{bmatrix}x \\ \\ y\end{bmatrix} \quad under \quad \vec{v_1},\vec{v_2}$

这样一个矩阵就代表着： $\vec{v}=x\vec{v_1}+y\vec{v_2}$ ，这个概念和线性映射的矩阵概念相似，都依赖于基底的选取。

分类讨论

情况1

若矩阵 $\begin{bmatrix}-1 \\ \\ 2\end{bmatrix}$ 代表着： $-1\vec{v_1}+2\vec{v_2}$ ，就代表着我们是站在空间 $\ V$ 的视角下看待所有的向量，那么如果我们要想知道站在空间 $W$ 的视角下，矩阵 $\begin{bmatrix}-1 \\ \\ 2\end{bmatrix}$ 会变成什么样，又该怎么得到呢？

根据前面的知识，线性映射 $T$ 可以把 $\vec{v_1}$ 和 $\vec{v_2}$ 映射为：
$\left\{ \begin{aligned} T(\vec{v_1}) & = & \frac{1}{3}\vec{w_1}+\frac{-1}{3}\vec{w_2} \\ \\ T(\vec{v_2}) & = & \frac{1}{3}\vec{w_1}+\frac{\ \ \ 2}{3}\vec{w_2} \\ \end{aligned} \right.$
既然矩阵 $\begin{bmatrix}-1 \\ \\ 2\end{bmatrix}$ 又代表着： $-1\vec{v_1}+2\vec{v_2}$ ，那么就有：

$T(\begin{bmatrix}-1 \\ \\ 2\end{bmatrix})= \quad -1\begin{bmatrix}\ \frac{1}{3} \\ \\ -\frac{1}{3}\end{bmatrix} + 2\begin{bmatrix}\frac{1}{3} \\ \\ \frac{2}{3}\end{bmatrix} = \begin{bmatrix}\frac{1}{3} \\ \\ \frac{5}{3}\end{bmatrix}$

现在我们知道了站在空间 $W$ 的视角下，以 $\vec{v_1}$ 和 $\vec{v_2}$ 为基底的矩阵 $\begin{bmatrix}-1 \\ \\ 2\end{bmatrix}$ 会被映射为以 $\vec{w_1}$ 和 $\vec{w_2}$ 为基底的矩阵 $\begin{bmatrix}\frac{1}{3} \\ \\ \frac{5}{3}\end{bmatrix}$ ，代表的含义是 $\frac{1}{3}\vec{w_1}+\frac{5}{3}\vec{w_2}$ 。

但我们回顾一下会发现这个映射的运算过程表达起来并不那么优雅，那么该如何更优雅地展现出来呢？

一个定理给出了答案：

定理：线性映射的作用类似于矩阵乘

$for \quad \vec{v} \quad under \quad \vec{v_1},\vec{v_2} \quad in \ \ \ V \quad and \quad \vec{w} \quad under \quad \vec{w_1},\vec{w_2} \quad in \ \ \ W, \\ \\ there \quad is, \\ M(\ T(\vec{v}) \ ) = M(T)M(\vec{v})$
那么，上面的过程其实就是：
$\begin{bmatrix}\frac{1}{3} \\ \\ \frac{5}{3}\end{bmatrix}=\begin{bmatrix} \ \ \ \frac{1}{3} & \frac{1}{3} \\ \\ -\frac{1}{3} & \frac{2}{3} \\ \end{bmatrix} \begin{bmatrix} -1 \\ \\ 2\end{bmatrix}$

情况2

有了前面的基础，我们可以更清晰地理解这种不同基底之间的转换关系。

若矩阵 $\begin{bmatrix}-1 \\ \\ 2\end{bmatrix}$ 代表着： $-1\vec{w_1}+2\vec{w_2}$ ，就代表着我们是站在空间 $W$ 的视角下看待所有的向量，要想知道站在空间 $V$ 的视角下，矩阵 $\begin{bmatrix}-1 \\ \\\ 2\end{bmatrix}$ 会变成什么样，只需要分别知道基底 $\vec{w_1}$ 和 $\vec{w_2}$ 在基底 $\vec{v_1}$ 和 $\vec{v_2}$ 下的座标即可。

$\vec{w_1}$ 在基底 $\vec{v_1}$ 和 $\vec{v_2}$ 下被书写为矩阵 $\begin{bmatrix}2 \\ \\ 1\end{bmatrix}$ ，同理 $\vec{w_2}$ 被书写为矩阵 $\begin{bmatrix}-1 \\ \\ 1\end{bmatrix}$ 。因此有：

$\begin{bmatrix} 2 & -1 \\ \\ 1 & \ \ \ 1 \\ \end{bmatrix} \begin{bmatrix} -1 \\ \\ 1\end{bmatrix}= \begin{bmatrix}-4 \\ \\ 1\end{bmatrix}$

空间 $V$ 中的矩阵 $\begin{bmatrix}-4 \\ \\ 1\end{bmatrix}$ 就是空间 $W$ 中的矩阵 $\begin{bmatrix}-1 \\ \\ 2\end{bmatrix}$ 被线性变换后的结果。

补充

一个线性映射 $T$ 不光可以理解为实现两个空间 $V$ 和 $W$ 之间的变换，还可以看作是同一空间 $V$ 内的算子。所谓算子，就是实现同一个空间 $V \rightarrow V$ 的线性映射，这种线性映射根据基底的选取方式不同可以分为两种：

映射前后选取的都是同一组基底。即： $T:V \rightarrow V$ ，箭头左边的基底是 $\vec{v_1},\vec{v_2}$ ，箭头右边的基底还是 $\vec{v_1},\vec{v_2}$ 。

映射前后选取了两组不同的基底。即： $T:V \rightarrow V$ ，箭头左边的基底是 $\vec{v_1},\vec{v_2}$ ，但是箭头右边却选用基底 $\vec{w_1},\vec{w_2}$ 。

值得说明的是，这两种看待 $T$ 的新角度对于我们理解下面的论述会很有帮助。

什么是相似矩阵

问题背景

如下两图展现了一个在标准正交基下逆时针选择90度的线性映射（实质上是一个算子）：
映射前后二维空间座标系统的基底没有发生改变，始终是标准正交基 $\vec{v_1},\vec{v_2}$ 。
这个算子可以记录为矩阵的形式（以上节补充部分的角度1去看待）：
$M=\begin{bmatrix} 0 & -1 \\ \\ 1 & \ \ \ 0 \\ \end{bmatrix}$

值得注意的是：二维向量空间 $V$ 及其含有的全体向量本身，并不依赖于基底的选取。变换前的向量 $\vec{v}$ 本身在标准正交基 $\vec{v_1},\vec{v_2}$ 下可以由一组座标来表示，但是换一组基底 $\vec{w_1},\vec{w_2}$ 来表达空间中同一个向量 $\vec{v}$ 就会产生另一组座标。

这不禁让我们产生了这样一个问题：对于同一个“逆时针旋转90度”的变换本身而言，站在变换前后都为基底 $\vec{v_1},\vec{v_2}$ 的视角下，可以用 $M=\begin{bmatrix} 0 & -1 \\ \\ 1 & \ \ \ 0 \\ \end{bmatrix}$ 来描述，但是站在变换前后都为另一组基底 $\vec{w_1},\vec{w_2}$ 的视角下，应该如何描绘这同一个变换呢？

分析

接下来我们仍用 $\vec{w_1}=\begin{bmatrix}2 \\ \\ 1\end{bmatrix}$ 和 $\vec{w_2}=\begin{bmatrix}-1 \\ \\1\end{bmatrix}$ 这组非标准正交基 $\vec{v_1},\vec{v_2}$ 的基底体系为例，展开下面的论述：

我们的总体思路是：在求出变换前以 $\vec{w_1},\vec{w_2}$ 为基底的向量 $\vec{w}$ 经逆时针旋转90度这样一个变换后，变为的仍以 $\vec{w_1},\vec{w_2}$ 为基底的 $\vec{w'}$ 座标会是什么的过程中，间接地求出我们想要的答案。

详细步骤

步骤1

由前面的知识可以知道：矩阵 $A=\begin{bmatrix} 2 & -1 \\ \\ 1 & \ \ \ 1 \\ \end{bmatrix}$ 可以用来描述由 $V \rightarrow V$ ，箭头左边以 $\vec{w_1},\vec{w_2}$ 为底，右边箭头以标准正交基 $\vec{v_1},\vec{v_2}$ 为底的一个线性映射。

我们先把向量 $\vec{w}$ 变换为在体系 $\vec{v_1},\vec{v_2}$ 中的等价表示，并记作 $\vec{v}$ 。那么就有：
$\vec{v}= A\vec{w}= \begin{bmatrix} 2 & -1 \\ \\ 1 & \ \ \ 1 \\ \end{bmatrix} \vec{w}$

步骤2

有了向量 $\vec{v}$ 后就容易处理了，因为我们知道，始终在体系 $\vec{v_1},\vec{v_2}$ 下的线性变换（算子）就是 $M=\begin{bmatrix} 0 & -1 \\ \\ 1 & \ \ \ 0 \\ \end{bmatrix}$ ，对向量 $\vec{v}$ 施加 $M$ （即经旋转90度变换）后，可以得到新的向量 $\vec{v'}$ ：
$\vec{v'}= M\vec{v}= MA\vec{w}= \begin{bmatrix} 0 & -1 \\ \\ 1 & \ \ \ 0 \\ \end{bmatrix} \begin{bmatrix} 2 & -1 \\ \\ 1 & \ \ \ 1 \\ \end{bmatrix} \vec{w}$

步骤3

我们说，其实在体系 $\vec{v_1},\vec{v_2}$ 下被表示的向量 $\vec{v'}$ 就是在 $\vec{w_1},\vec{w_2}$ 体系下的 $\vec{w'}$ ，因而我们最终再进行一步转化，进行步骤1中基底变换的反变换即可：

$\vec{w'}= A^{-1}\vec{v'}= A^{-1}MA\vec{w}= \begin{bmatrix} 2 & -1 \\ \\ 1 & \ \ \ 1 \\ \end{bmatrix}^{-1} \begin{bmatrix} 0 & -1 \\ \\ 1 & \ \ \ 0 \\ \end{bmatrix} \begin{bmatrix} 2 & -1 \\ \\ 1 & \ \ \ 1 \\ \end{bmatrix} \vec{w}$

总结

现在我们知道了，在 $\vec{v_1},\vec{v_2}$ 体系下用 $M$ 来描述一个逆时针旋转90度的变换，而在 $\vec{w_1},\vec{w_2}$ 体系下就可以用 $A^{-1}MA$ 来描述同样一个逆时针旋转90度的变换。我们因而可以推广一下，所谓的相似矩阵，可理解为：就是同一空间下采用的不同基底体系对待同一个变换的不同描述而已。

特征值和特征向量的应用

问题背景

空间 $V$ 中有基底 $\vec{v_1},\vec{v_2}$ 以及该基底下的向量 $\vec{v}=\begin{bmatrix}2 \\ \\ 1\end{bmatrix}$ 如图：

考虑映射前后都以 $\vec{v_1},\vec{v_2}$ 为基底的算子 $A= \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix}$ 映向量 $\vec{v}$ 为：
$A(\vec{v})= \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix} \begin{bmatrix}2 \\ \\ 1\end{bmatrix}= \begin{bmatrix}7 \\ \\ 2\end{bmatrix}$
这看起来似乎相当容易。然而在实际应用中，这种变换都会进行许多许多次，以进行5次为例：
$\vec{v'}=A^5(\vec{v})= \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix} \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix} \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix} \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix} \begin{bmatrix} 3 & 1 \\ \\ 0 & 2 \\ \end{bmatrix} \begin{bmatrix}2 \\ \\ 1\end{bmatrix}= \begin{bmatrix}? \\ \\ ?\end{bmatrix}$
这个计算过程让人头疼。那么如何简化呢？根据我们前面的知识，或许我们可以从变换的视角（变换基底）这种方式寻求答案。

分析

首先求出矩阵 $A$ 的特征值和相应的特征向量，这里不再详细展开如何去求，直接给出结果：可以求出对应于特征值 $3$ 的特征向量为 $\vec{w_1}=\begin{bmatrix}1 \\ \\ 0\end{bmatrix}$ ，对应于特征值 $2$ 的特征向量为 $\vec{w_2}=\begin{bmatrix}-1 \\ \\ 1\end{bmatrix}$ 。

接下来，我们把这两个特征向量组成 $V$ 的基底，重新建立空间 $V$ 的座标体系。
令映射前以 $\vec{w_1},\vec{w_2}$ 为基底，映射后以 $\vec{v_1},\vec{v_2}$ 为基底的算子 $P$ 为：
$P= \begin{bmatrix} 1 & -1 \\ \\ 0 & \ \ \ 1 \\ \end{bmatrix}$

由相似矩阵部分的知识我们知道，体系 $\vec{v_1},\vec{v_2}$ 对变换的描述是 $A$ ，那么体系 $\vec{w_1},\vec{w_2}$ 对这个变换的描述就是 $P^{-1}AP$ ，记作 $A'$ ：
$A'= P^{-1}AP= \begin{bmatrix} 3 & 0 \\ \\ 0 & 2 \\ \end{bmatrix}$

$A'$ 这个对角矩阵中，对角线上的两个元素一定会是对应于相应的特征向量的特征值。（这一点可以花点时间想想是为什么）

值得指出：对体系 $\vec{v_1},\vec{v_2}$ 下的 $\vec{v}$ ，可以找出它在体系 $\vec{w_1},\vec{w_2}$ 下的等价向量 $\vec{w}$ 。

那么我们就有一个等价关系：对 $\vec{v}$ 在体系 $\vec{v_1},\vec{v_2}$ 下施以 $A$ ，效果等价于对 $\vec{w}$ 在体系 $\vec{w_1},\vec{w_2}$ 下施以 $A'$ 。

为了实现我们的终极目标：对 $\vec{v}$ 施以 $A^5$ 求出体系 $\vec{v_1},\vec{v_2}$ 下的 $\vec{v'}$ ，我们率先把 $\vec{v}$ 变换为体系 $\vec{w_1},\vec{w_2}$ 下的 $\vec{w}$ ，对 $\vec{w}$ 施以 $(A')^5$ 求出体系 $\vec{w_1},\vec{w_2}$ 下的 $\vec{w'}$ （这样做的原因是 $A'$ 是对角矩阵，求 $A'$ 的各次幂次都极为简单），再最后把 $\vec{w'}$ 变换回体系 $\vec{v_1},\vec{v_2}$ 下的 $\vec{v'}$ 就是我们的所求了。

详细步骤

步骤1

$P^{-1}$ 将 $\vec{v}$ 体系转化为 $\vec{w}$ 体系：
$\vec{w}=P^{-1}\vec{v}$

步骤2

对 $\vec{w}$ 体系下的向量 $\vec{w}$ 施加变换 $(A')^{5}$ 得到 $\vec{w'}$ ：
$\vec{w'}=(A')^{5}\vec{w}=(A')^{5}P^{-1}\vec{v}$

步骤3

将 $\vec{w}$ 体系下的向量 $\vec{w'}$ 重新变换为其在 $\vec{v}$ 体系下的等价向量 $\vec{v'}$ ：
$\vec{v'}=P\vec{w'}=P(A')^{5}P^{-1}\vec{v}$

总结

经过这种来来回回的变换，我们最终成功地绕开了计算 $\vec{v'}=A^5\vec{v}$ 的困扰，另辟了蹊径使得计算量下降，这种优势在幂次更高时有更好的体现。

补充

文中的空间到空间之间的变换更规范的写法是箭头 $\mapsto$ ，表示”maps to“，而不是我在文章中用的 $\to$

3bulue1brown线性代数系列学习笔记02-基变换与特征值

前言

基变换