機器學習數學基礎(三):線性代數 矩陣

(一)矩陣

引例SVD

什麼是SVD?

奇異值分解(Singular Value Decomposition)是一種重要的矩陣分解方法,可以看作對稱方陣在任意矩陣上的推廣。
在這裏插入圖片描述
與特徵值、特徵向量概念相對應:

  • \sum_{} 對角線上的元素稱爲矩陣A的奇異值
  • U 的第i列稱爲A的關於σi\sigma_i的左奇異向量
  • V 的第i列稱爲A的關於σi\sigma_i的右奇異向量

舉例

  • 已知4×54 \times 5階實矩陣A,求A的SVD分解:
    在這裏插入圖片描述

  • 一個圖像也可以看作一個矩陣,進行分解
    在這裏插入圖片描述

基礎概念

定義

線性代數定義:方陣行列式

  • 1階方陣行列式是該元素本身
  • n階方陣行列式等於它任一行/列各元素與其對應的代數餘子式乘積之和

代數餘子式

  • 餘子式
    在一個n階行列式A中,把(i,j)元素aija_ij所在的第i行和第j列劃去後,留下的n-1階方陣的行列式叫做元素aija_ij的餘子式,記作MijM_ij
  • 代數餘子式
    代數餘子式AijA_ij = (1)i+j(-1)^{i+j}MijM_ij
    在這裏插入圖片描述

伴隨矩陣

對於n×nn \times n方陣的任意元素aija_ij都有各自的代數餘子式AijA_ij = (1)i+j(-1)^{i+j}MijM_ij
構造n×nn \times n的方陣AA^*
在這裏插入圖片描述
AA^*是A的伴隨矩陣
AijA_ij位於AA^*的第j行第i列

方陣的逆

AA=AIA\cdot A^*=|A|\cdot I
推導過程如下:
在這裏插入圖片描述

範德蒙行列式

證明範德蒙行列式,使用數學歸納法
在這裏插入圖片描述

矩陣的乘法/狀態轉移矩陣

矩陣乘法

A爲m×sm \times s階矩陣,B爲s×ns \times n階矩陣,那麼,C=A×BA \times B階矩陣是m×nm \times n階矩陣,其中
在這裏插入圖片描述

矩陣和向量乘法

A爲m×nm \times n階矩陣,B爲n×1n \times 1階矩陣,則AxAxm×1m \times 1列向量,記爲y=A\overrightarrow{y} = A\cdotx\overrightarrow{x}
由於n維列向量和n維空間的點一一對應,上式也是從n維空間的點到m維空間點的線性變換(旋轉、平移)。
特殊的,若m=n,Ax完成的是n維空間內的線性變換。

應用:機械手臂移動

狀態轉移矩陣

  • 狀態轉義概率
    某隨機過程,狀態有n個,用1—n表示。記在當前時刻t時位於i狀態,再t+1時刻位於j狀態的概率爲P(i,j)= P(j | i),即狀態轉移概率只依賴於前一個狀態。
    在這裏插入圖片描述

  • 概率轉移矩陣
    第n+1代中處於第j個階層的概率爲:
    在這裏插入圖片描述
    此式中矩陣P爲(條件)概率轉移矩陣。第i行元素表示,在上一個狀態爲i時的分佈概率,即:每一行元素和爲1。

  • 平穩分佈
    轉移概率矩陣性質是初始概率不同,經過若干次迭代,最終穩定收斂在某個分佈上,稱爲平穩分佈,這個性質不是初始分佈的性質。
    以下兩種寫法等價:
    在這裏插入圖片描述
    如果概率分佈πP=π\pi P = \pi,說明:
    (1)該多項分佈是狀態轉移矩陣P的平穩分佈;
    (2)線性方程xP = x的非負解爲π\pi,而PnP^n唯一,因此π\pi是線性方程xP = x的唯一非負解

矩陣和向量組

矩陣的秩

設在矩陣A中有一個不等於零的r階子式D,且所有r+1階子式(若存在)爲0,那麼D爲矩陣A的最高階非零子式,r稱爲矩陣A的秩,記爲R(A)=rR(A)=r

  • n×nn \times n的可逆矩陣,秩爲n
  • 可逆矩陣又稱滿秩矩陣
  • 矩陣的秩等於它行(列)向量組的秩

秩和線性方程組解的關係

在這裏插入圖片描述
對於n元線性方程組Ax=bAx = b

  • 無解的充要條件是R(A)<R(A,b)R(A) < R(A,b)
  • 有唯一解的充要條件是R(A)=R(A,b)=nR(A) = R(A,b) = n
  • 有無限多解的充要條件是R(A)=R(A,b)<nR(A) = R(A,b) < n
    推論
  • Ax=0Ax = 0 有非零解的充要條件是R(A)<nR(A) < n
  • Ax=bAx = b 有解的充要條件是R(A)=R(A,b)R(A) = R(A,b)

向量組等價

  • 什麼是向量組等價
    向量b\overrightarrow{b}能由向量組A:a1\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m}線性表出的充要條件是矩陣A=(a1\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m})的秩等於矩陣B=(a1\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m},b\overrightarrow{b})的秩
    設有兩個向量組A:a1\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m}和B:b1\overrightarrow{b_1},b2\overrightarrow{b_2},…bn\overrightarrow{b_n},若向量組A和向量組B能夠相互表出,則稱向量組A和向量組B等價
  • 係數矩陣
    將向量組A和B所構成的矩陣依次記作A = (a1\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m})和 B = (b1\overrightarrow{b_1},b2\overrightarrow{b_2},…bn\overrightarrow{b_n}),B組能由A組線性表示,即對每個向量bjb_j,存在k1j\overrightarrow{k_{1j}},k2j\overrightarrow{k_{2j}},…kmj\overrightarrow{k_{mj}},使得
    bj=k1ja1+k2ja2+...kmjam=(a1a2am)(k1jk2jkmj)b_j=k_{1j}a_1+k_{2j}a_2+...k_{mj}a_m = \begin{pmatrix} a_1 & a_2 & \cdots && a_m \\ \end{pmatrix}\begin{pmatrix}k_{1j} \\ k_{2j} \\ \vdots \\k_{mj} \\ \end{pmatrix}
    從而得到稀疏矩陣
    (b1b2bm)=(a1a2am)(k11k12k1nk21k22k2nkm1km2kmn)\begin{pmatrix} b_1 & b_2 & \cdots && b_m \\ \end{pmatrix} = \begin{pmatrix} a_1 & a_2 & \cdots && a_m \\ \end{pmatrix} \begin{pmatrix} k_{11} & k_{12} & \cdots & k_{1n} \\ k_{21} & k_{22} & \cdots & k_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ k_{m1} & k_{m2} & \cdots & k_{mn} \\ \end{pmatrix}
  • 重認識 C=ABC=AB
    C=ABC=AB,則矩陣C的列向量能由A的列向量線性表示,B即爲這一表示的係數矩陣;矩陣C的行向量能由B的行向量線性表示,A即爲這一表示的係數矩陣。
    向量組Bb1B:\overrightarrow{b_1},b2\overrightarrow{b_2},…bn\overrightarrow{b_n}能由向量組Aa1A:\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m}線性表示的充要條件是矩陣A=a1A=(\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m})的秩等於矩陣AB=a1(A,B)=(\overrightarrow{a_1},a2\overrightarrow{a_2},…am,b1\overrightarrow{a_m},\overrightarrow{b_1},b2\overrightarrow{b_2},…bn\overrightarrow{b_n})的秩,即爲R(A)=R(A,B)R(A) = R(A,B)
  • 正交陣
    若n階矩陣滿足ATA=1\mathbf{A}^\mathrm{T}A = 1,則A爲正交矩陣,簡稱正交陣。
    充要條件:A的行(列)向量都是單位向量,且兩兩正交。
    正交變換:A是正交陣,x爲向量,則AxA \cdot x稱爲正交變換。正交變換不改變向量長度

(二)特徵值和特徵向量

特徵向量

  1. 定義:

A是n階矩陣,若λ\lambdann維非0列向量x滿足Ax=λxAx=\lambda x,那麼λ\lambda稱爲A的特徵值,xx稱爲A的對於特徵值λ\lambda的特徵向量。

  1. 求解:

由定義得AλIx=0(A-\lambda I) x=0,令關於λ\lambda的多項式AλI|A-\lambda I|00,方程AλI=0|A-\lambda I|=0的根爲A的特徵值,將λ0\lambda_0代入方程組AλIx=0(A-\lambda I) x=0,求得到的非零解,即λ0\lambda_0對應的特徵向量。

  1. 性質:

nn階矩陣A=(aij)A=(a_{ij})的特徵值爲λ1,λ2,...λn\lambda_1,\lambda_2,...\lambda_n
(1)λ1+λ2+...+λn=a11+a22+...+ann\lambda_1+\lambda_2+...+\lambda_n=a_{11}+a_{22}+...+a_{nn}
(2)λ1λ2...λn=A\lambda_1\lambda_2...\lambda_n=|A|

  1. trace/矩陣的跡:

矩陣A主行列式的元素和

  1. 不同特徵值對應的特徵向量:

λ1,λ2,...λn\lambda_1,\lambda_2,...\lambda_n是方陣A的m個特徵值,p1,p2,...pmp_1,p_2,...p_m是依次與之對應的特徵向量,若λ1,λ2,...λn\lambda_1,\lambda_2,...\lambda_n各不相等,則p1,p2,...pmp_1,p_2,...p_m線性無關。
不同特徵值對應的特徵向量,線性無關

  1. 引理:

實對稱矩陣的特徵值是實數。
設複數λ\lambda爲對稱陣AA的特徵值,復向量x爲對應的特徵向量,即Ax=λx(x0)Ax=\lambda x(x\neq 0)
λ\overline{\lambda}表示λ\lambda的共軛複數,x\overline{x}表示xx的共軛復向量,而AA是實矩陣,則有A=A\overline{A}=A,證明如下:
Ax=Ax=Ax=λx=λxA\overline{x}=\overline{A}\overline{x}=\overline{Ax}=\overline{\lambda x}=\overline{\lambda}\overline{x}

因爲xT(Ax)=xTλx=λxTx\overline{x}^T(Ax)= \overline{x}^T\lambda x= \lambda \overline{x}^Tx

xT(Ax)=(xTA)x=(Ax)Tx=(λx)Tx=λxTx\overline{x}^T(Ax)= (\overline{x}^TA)x= (A\overline{x})^Tx= (\lambda \overline{x})^Tx= \overline{\lambda }\overline{x}^Tx
從而
λxTx=λxTx    (λλ)xTx=0\lambda \overline{x}^Tx= \overline{\lambda }\overline{x}^Tx \implies (\lambda - \overline{\lambda}) \overline{x}^Tx=0

在這裏插入圖片描述
所以
λλ=0    λ=λ\lambda- \overline{\lambda}=0\implies \lambda= \overline{\lambda}

對稱陣、正交陣、正定陣

對稱陣

  • 實對稱陣的特徵向量可以取實向量
  • 實對稱陣不同特徵值的特徵向量正交
    證明:令實對稱矩陣爲A,其兩個不同的特徵值λ1λ2\lambda_1\lambda_2對應的特徵向量分別是μ1μ2\mu_1\mu_2
    {Aμ1=λ1μ1Aμ2=λ2μ2    μ1TAμ2=μ1Tλμ2 \begin{cases} A\mu_1=\lambda_1\mu_1 \\ A\mu_2=\lambda_2\mu_2\implies \mu_1^TA\mu_2=\mu_1^T\lambda\mu_2 \end{cases}

(ATμ1)Tμ2=λ2μ1Tμ2    (Aμ1)Tμ2=λ2μ1Tμ2(A^T\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2 \implies (A\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2

    (λ1μ1)Tμ2=λ2μ1Tμ2\implies(\lambda_1\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2

    λ1μ1Tμ2=λ2μ1Tμ2\implies \lambda_1 \mu_1^T \mu_2 = \lambda_2 \mu_1^T \mu_2

λ1λ2μ1Tμ2=0\underrightarrow{\lambda_1\not=\lambda_2} \mu_1^T\mu_2=0

正交陣

A爲n階對稱陣,則必有正交陣P,使得P1AP=PTAP=ΛP^{-1}AP=P^TAP=\Lambda
Λ\Lambda是以A的n個特徵值爲對角元的對角陣
此變換稱爲合同變換AAΛ\Lambda互爲合同矩陣

正定陣

(1)定義:對於n階方陣A,若任意n階向量x,都有xTAx>0x^TAx>0,則稱A是正定陣。

若條件變成xTAxx^TAx大於等於0,則A稱作半正定矩陣
(2)判定:
對稱陣A爲正定陣A的特徵值都爲正A的順序主子式大於0\fbox{對稱陣A爲正定陣} 等價 \fbox{A的特徵值都爲正} 等價 \fbox{A的順序主子式大於0}
n階半正定陣的集合爲凸錐。

數據白化

在這裏插入圖片描述
計算觀測數據x的n×nn \times n的對稱陣x×xTx \times x^T的特徵值和特徵向量,用特徵值形成對角陣D,特徵向量形成正交陣U,則:x×xT=UTDUx \times x^T = U^TDU
x~=UTD0.5Ux\tilde{x}=U^TD^{-0.5}U\cdot x
在這裏插入圖片描述

正交基

在n維歐式空間中,由n個非零向量組成的正交向量組稱爲正交基

QR分解/LFM

QR分解

對於m×nm \times n列滿秩矩陣AA,必有Am×n=Qm×nRm×nA_{m \times n}=Q_{m\times n}\cdot R_{m\times n},其中QQ是列正交矩陣,RR爲非奇異上三角矩陣,當要求RR的對角線元素爲正時,該分解唯一,是QRQR分解,可用於求解矩陣AA的特徵值,A的逆等問題。

計算n階方陣A的特徵值:
A=QR    A1=QTAQ=RQA=Q\cdot R \implies A_1=Q^TAQ=R\cdot Q

............

Ak=QkRk    Ak+1=RkQkA_k=Q_k\cdot R_k \implies A_{k+1}=R_k \cdot Q_k

............

Akdiag{λ1,λ2,...,λn}A_k\to diag{\lbrace \lambda_1,\lambda_2,...,\lambda_n\rbrace}

LFM

LatentFactorModelLatent Factor Model
對於K個隱變量,得Am×n=Um×kVn×kTA_{m \times n}=U_{m\times k}\cdot V_{n\times k}^T
目標函數:
J(U,V;A)=i=1mj=1n(aijr=1kuirvjr)2+λ(i=1mr=1kuir2+j=1mr=1kujr2)J(U,V;A)=\sum_{i=1}^m \sum_{j=1}^n (a_{ij}-\sum_{r=1}^ku{ir}\cdot v_{jr})^2 +\lambda (\sum_{i=1}^m \sum_{r=1}^ku{ir}^2+\sum_{j=1}^m \sum_{r=1}^ku{jr}^2) \quad
梯度:
在這裏插入圖片描述

(三)矩陣求導

向量對向量求導

線性迴歸中直接使用下式
Axx=AT,AxxT=A,(xTA)x=A\frac {\partial A\vec{x} }{\partial \vec{x}}=A^T , \frac {\partial A\vec{x} }{\partial \vec{x}^T}=A, \frac {\partial({\vec{x}}^T A)}{\partial \vec{x}}=A

推導如下:
在這裏插入圖片描述

標量對向量求導

AAn×nn \times n的矩陣,xxn×1n \times 1的列向量,記y=xTAxy={\vec{x}}^T \cdot A \cdot \vec{x}
yx=(xTAx)x=(AT+A)x\frac {\partial y}{\partial \vec{x}}= \frac {\partial {({\vec{x}}^T\cdot A \cdot \vec{x})}}{\partial \vec{x}}= (A^T+A)\cdot \vec{x}

若A爲對稱陣,則有(xTAx)x=2Ax\frac {\partial {({\vec{x}}^T\cdot A \cdot \vec{x})}}{\partial \vec{x}}= 2A\cdot \vec{x}
推導如下:
在這裏插入圖片描述

標量對矩陣求導

AAn×nn \times n的矩陣, A|A|AA的行列式, AA=(A)T=A(A1)T\frac {\partial |A|}{\partial A}={(A^*)}^T=|A| \cdot (A^{-1})^T,證明如下:
在這裏插入圖片描述
矩陣乘法詳解+例題

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章