(一)矩阵
引例SVD
什么是SVD?
奇异值分解(Singular Value Decomposition)是一种重要的矩阵分解方法,可以看作对称方阵在任意矩阵上的推广。
与特征值、特征向量概念相对应:
- ∑ 对角线上的元素称为矩阵A的奇异值
- U 的第i列称为A的关于σi的左奇异向量
- V 的第i列称为A的关于σi的右奇异向量
举例
基础概念
定义
线性代数定义:方阵行列式
- 1阶方阵行列式是该元素本身
- n阶方阵行列式等于它任一行/列各元素与其对应的代数余子式乘积之和
代数余子式
- 余子式
在一个n阶行列式A中,把(i,j)元素aij所在的第i行和第j列划去后,留下的n-1阶方阵的行列式叫做元素aij的余子式,记作Mij
- 代数余子式
代数余子式Aij = (−1)i+jMij
伴随矩阵
对于n×n方阵的任意元素aij都有各自的代数余子式Aij = (−1)i+jMij,
构造n×n的方阵A∗:
A∗是A的伴随矩阵
Aij位于A∗的第j行第i列
方阵的逆
A⋅A∗=∣A∣⋅I
推导过程如下:
范德蒙行列式
证明范德蒙行列式,使用数学归纳法
矩阵的乘法/状态转移矩阵
矩阵乘法
A为m×s阶矩阵,B为s×n阶矩阵,那么,C=A×B阶矩阵是m×n阶矩阵,其中
矩阵和向量乘法
A为m×n阶矩阵,B为n×1阶矩阵,则Ax为m×1列向量,记为y=A⋅x
由于n维列向量和n维空间的点一一对应,上式也是从n维空间的点到m维空间点的线性变换(旋转、平移)。
特殊的,若m=n,Ax完成的是n维空间内的线性变换。
应用:机械手臂移动
状态转移矩阵
-
状态转义概率
某随机过程,状态有n个,用1—n表示。记在当前时刻t时位于i状态,再t+1时刻位于j状态的概率为P(i,j)= P(j | i),即状态转移概率只依赖于前一个状态。
-
概率转移矩阵
第n+1代中处于第j个阶层的概率为:
此式中矩阵P为(条件)概率转移矩阵。第i行元素表示,在上一个状态为i时的分布概率,即:每一行元素和为1。
-
平稳分布
转移概率矩阵性质是初始概率不同,经过若干次迭代,最终稳定收敛在某个分布上,称为平稳分布,这个性质不是初始分布的性质。
以下两种写法等价:
如果概率分布πP=π,说明:
(1)该多项分布是状态转移矩阵P的平稳分布;
(2)线性方程xP = x的非负解为π,而Pn唯一,因此π是线性方程xP = x的唯一非负解
矩阵和向量组
矩阵的秩
设在矩阵A中有一个不等于零的r阶子式D,且所有r+1阶子式(若存在)为0,那么D为矩阵A的最高阶非零子式,r称为矩阵A的秩,记为R(A)=r。
- n×n的可逆矩阵,秩为n
- 可逆矩阵又称满秩矩阵
- 矩阵的秩等于它行(列)向量组的秩
秩和线性方程组解的关系
对于n元线性方程组Ax=b
- 无解的充要条件是R(A)<R(A,b)
- 有唯一解的充要条件是R(A)=R(A,b)=n
- 有无限多解的充要条件是R(A)=R(A,b)<n
推论
- Ax=0 有非零解的充要条件是R(A)<n
- Ax=b 有解的充要条件是R(A)=R(A,b)
向量组等价
- 什么是向量组等价
向量b能由向量组A:a1,a2,…am线性表出的充要条件是矩阵A=(a1,a2,…am)的秩等于矩阵B=(a1,a2,…am,b)的秩
设有两个向量组A:a1,a2,…am和B:b1,b2,…bn,若向量组A和向量组B能够相互表出,则称向量组A和向量组B等价
- 系数矩阵
将向量组A和B所构成的矩阵依次记作A = (a1,a2,…am)和 B = (b1,b2,…bn),B组能由A组线性表示,即对每个向量bj,存在k1j,k2j,…kmj,使得
bj=k1ja1+k2ja2+...kmjam=(a1a2⋯am)⎝⎜⎜⎜⎛k1jk2j⋮kmj⎠⎟⎟⎟⎞
从而得到稀疏矩阵
(b1b2⋯bm)=(a1a2⋯am)⎝⎜⎜⎜⎛k11k21⋮km1k12k22⋮km2⋯⋯⋱⋯k1nk2n⋮kmn⎠⎟⎟⎟⎞
- 重认识 C=AB
若C=AB,则矩阵C的列向量能由A的列向量线性表示,B即为这一表示的系数矩阵;矩阵C的行向量能由B的行向量线性表示,A即为这一表示的系数矩阵。
向量组B:b1,b2,…bn能由向量组A:a1,a2,…am线性表示的充要条件是矩阵A=(a1,a2,…am)的秩等于矩阵(A,B)=(a1,a2,…am,b1,b2,…bn)的秩,即为R(A)=R(A,B)。
- 正交阵
若n阶矩阵满足ATA=1,则A为正交矩阵,简称正交阵。
充要条件:A的行(列)向量都是单位向量,且两两正交。
正交变换:A是正交阵,x为向量,则A⋅x称为正交变换。正交变换不改变向量长度
(二)特征值和特征向量
特征向量
- 定义:
A是n阶矩阵,若λ和n维非0列向量x满足Ax=λx,那么λ称为A的特征值,x称为A的对于特征值λ的特征向量。
- 求解:
由定义得(A−λI)x=0,令关于λ的多项式∣A−λI∣为0,方程∣A−λI∣=0的根为A的特征值,将λ0代入方程组(A−λI)x=0,求得到的非零解,即λ0对应的特征向量。
- 性质:
设n阶矩阵A=(aij)的特征值为λ1,λ2,...λn则
(1)λ1+λ2+...+λn=a11+a22+...+ann
(2)λ1λ2...λn=∣A∣
- trace/矩阵的迹:
矩阵A主行列式的元素和
- 不同特征值对应的特征向量:
设λ1,λ2,...λn是方阵A的m个特征值,p1,p2,...pm是依次与之对应的特征向量,若λ1,λ2,...λn各不相等,则p1,p2,...pm线性无关。
不同特征值对应的特征向量,线性无关
- 引理:
实对称矩阵的特征值是实数。
设复数λ为对称阵A的特征值,复向量x为对应的特征向量,即Ax=λx(x=0)
用λ表示λ的共轭复数,x表示x的共轭复向量,而A是实矩阵,则有A=A,证明如下:
Ax=Ax=Ax=λx=λx
因为xT(Ax)=xTλx=λxTx
xT(Ax)=(xTA)x=(Ax)Tx=(λx)Tx=λxTx
从而
λxTx=λxTx⟹(λ−λ)xTx=0
而
所以
λ−λ=0⟹λ=λ
对称阵、正交阵、正定阵
对称阵
- 实对称阵的特征向量可以取实向量
- 实对称阵不同特征值的特征向量正交
证明:令实对称矩阵为A,其两个不同的特征值λ1λ2对应的特征向量分别是μ1μ2
{Aμ1=λ1μ1Aμ2=λ2μ2⟹μ1TAμ2=μ1Tλμ2
(ATμ1)Tμ2=λ2μ1Tμ2⟹(Aμ1)Tμ2=λ2μ1Tμ2
⟹(λ1μ1)Tμ2=λ2μ1Tμ2
⟹λ1μ1Tμ2=λ2μ1Tμ2
λ1=λ2μ1Tμ2=0
正交阵
A为n阶对称阵,则必有正交阵P,使得P−1AP=PTAP=Λ
Λ是以A的n个特征值为对角元的对角阵
此变换称为合同变换,A和Λ互为合同矩阵
正定阵
(1)定义:对于n阶方阵A,若任意n阶向量x,都有xTAx>0,则称A是正定阵。
若条件变成xTAx大于等于0,则A称作半正定矩阵
(2)判定:
对称阵A为正定阵等价A的特征值都为正等价A的顺序主子式大于0
n阶半正定阵的集合为凸锥。
数据白化
计算观测数据x的n×n的对称阵x×xT的特征值和特征向量,用特征值形成对角阵D,特征向量形成正交阵U,则:x×xT=UTDU
令x~=UTD−0.5U⋅x
正交基
在n维欧式空间中,由n个非零向量组成的正交向量组称为正交基
QR分解/LFM
QR分解
对于m×n列满秩矩阵A,必有Am×n=Qm×n⋅Rm×n,其中Q是列正交矩阵,R为非奇异上三角矩阵,当要求R的对角线元素为正时,该分解唯一,是QR分解,可用于求解矩阵A的特征值,A的逆等问题。
计算n阶方阵A的特征值:
A=Q⋅R⟹A1=QTAQ=R⋅Q
......
Ak=Qk⋅Rk⟹Ak+1=Rk⋅Qk
......
Ak→diag{λ1,λ2,...,λn}
LFM
LatentFactorModel
对于K个隐变量,得Am×n=Um×k⋅Vn×kT
目标函数:
J(U,V;A)=i=1∑mj=1∑n(aij−r=1∑kuir⋅vjr)2+λ(i=1∑mr=1∑kuir2+j=1∑mr=1∑kujr2)
梯度:
(三)矩阵求导
向量对向量求导
线性回归中直接使用下式
∂x∂Ax=AT,∂xT∂Ax=A,∂x∂(xTA)=A
推导如下:
标量对向量求导
A为n×n的矩阵,x为n×1的列向量,记y=xT⋅A⋅x
∂x∂y=∂x∂(xT⋅A⋅x)=(AT+A)⋅x
若A为对称阵,则有∂x∂(xT⋅A⋅x)=2A⋅x
推导如下:
标量对矩阵求导
A为 n×n的矩阵, ∣A∣为 A的行列式, ∂A∂∣A∣=(A∗)T=∣A∣⋅(A−1)T,证明如下:
矩阵乘法详解+例题