1. 基本概念
- LIDAR(LIght Detection And Ranging):光探測和測距
- LADAR(LAser Detection And Ranging):激光探測和測距
- 均值、方差、標準差:用於描述一維隨機變量 (即一維隨機變量X=(x),多個樣本)
- 協方差、相關系數、協方差矩陣:用於描述多維隨機變量(即多維隨機變量X=(x,y,z), 多個樣本)
- 協方差矩陣:它計算的是不同維度之間的協方差,而不是不同樣本之間
- 協方差矩陣定義了我們數據的傳播(方差)和方向(協方差)
- 協方差<->特徵向量<->雅可比矩陣
1.1 概率基本概念
1.1.1 隨機變量
- 不確定性(Uncertainty):不確定性在現實世界中是客觀存在的;在現實世界中,不確定性來自於片面的、間接的和模糊的觀察,觀測值(e.g. sensor noise),動作執行(有限制的控制系統)
- 概率論(Probability Theory):是處理不確定性問題最強有力的方式
- 隨機變量(Random Variable):用於表示一個不確定性的量,記作:x
- 連續隨機變量(Continuous):其值爲實數值(有限或無限的),其概率分佈f(x)叫做概率密度函數(pdf: Probability Density Function)。其特性爲:p(x)≥0∫f(x)dx=1
- 離散隨機變量(Discrete):其值爲預定義的集合(有序、無序、有限或無限的),其概率分佈p(x)叫做概率質量函數(Probability Mass Function),經常以直方圖或Hinton圖表示,其特性爲:
p(x)≥0∑p(x)=1
- 正態分佈概率密度函數
X∼N(μ,σ2)f(x)=2πσ1e−2σ2(x−μ)2
1.1.2 隨機向量
-
隨機向量(Random Vector):包含多個隨機變量的向量爲隨機向量
-
正態分佈:
X=[x1,x2,...,xk]T:k個變量,X∼Nk(μ,Σ)
-
均值向量:
μ=E[X]=[E[x1],E[x2],...,E[xk]]T
-
kxk階協方差矩陣:
Σ=:E[(X−μ)(X−μ)T]=[Cov[Xi,Yj];1≤i,j≤k]
-
概率密度函數:
fX(x1,...,xk)=(2π)k∣Σ∣1e−21(X−μ)TΣ−1(X−μ)
1.1.3 概率
-
概率(Probability):指隨機變量取某一個值的機率,記作:p(x)
-
聯合概率(Joint Probability):指兩個或多個事件同時發生的概率,記作:p(x,y,z),其隨機變量可能全部是離散的,或全部是連續的,或者是混合的;其總和或積分值一定是1。其中p(x,y,z)可以記作p(X),X=[x,y,z]T
-
邊緣概率(Marginal Probability):指一個事件x發生的概率,記作:p(x),根據 多個隨機變量的聯合概率求部分隨機變量的概率的過程(求和或積分),被稱爲邊緣化(marginalization)
f(x)=∫f(x,y)dyp(y)=∫f(x,y)dx(x,y是連續的)
p(x,y)=w∑∫f(x,y,z,w)dz(x,y是離散的,z是連續的,w是離散的)
-
條件概率(Conditional Probability):對於聯合概率p(x,y),當y=y∗時x的概率,記作:p(x∣y=y∗),簡記爲p(x∣y)。p(x,y)的積分或求和的結果爲1,而p(x∣y=y∗)只是其中的一部分,所以其積分或和小於1,爲滿足其積分或和的結果爲1,需要對其進行歸一化,其計算公式如下:
p(x∣y=y∗)=p(y=y∗)p(x,y=y∗)=∫p(x,y=y∗)dxp(x,y=y∗)=p(x∣y)=p(y)p(x,y)
-
三者的關係:
-
概率和爲1:
- 離散型
x∑p(x)=1
- 連續型
∫p(x)dx=1
-
總概率定律:
- 離散型
p(x)=y∑p(x∣y)p(y)
- 連續型
p(x)=∫p(x∣y)p(y)dy
-
邊緣概率:
- 離散型
p(x)=y∑p(x,y)
- 連續型
p(x)=∫p(x,y)dy
-
Bayes公式:
p(x,y)=p(x∣y)p(y)=p(y∣x)p(x)
-
條件獨立
p(x,y∣z)=p(x∣z)p(y∣z)
p(x,y)=p(x)p(y)
1.2 貝葉斯定理
- 貝葉斯定理(Bayes’ Rule ):
- 允許我們利用已有的知識或者信念(belief)(通常是先驗知識prior)幫助我們計算相關事件的概率。
p(x,y)=p(x∣y)p(y)=p(y∣x)p(x)
P(x∣y)=p(y)p(y∣x)p(x)=evidencelikelihood⋅prior=posterior
- p(x):可以是一個值(先驗值),也可以是一個分佈(先驗分佈)
- p(y∣x):似然分佈,也叫證據 (y就是新的數據 證據)
- p(x∣y):後驗分佈,由新的數據(證據)更新之後的分佈
- 分母p(y):是一個歸一化常量,用於確保所有的後驗概率之和爲1
p(x∣y)=η⋅p(y∣x)⋅p(x)=p(y)p(y∣x)⋅p(x)
- 給定背景知識e,Bayes規則變爲:
p(x∣y,e)=p(y∣e)p(y∣x,e)⋅p(x∣e)
- 學習能力:Bayes Rule允許把新的數據證據與已有經驗組合在一起,且用新的數據證據更新已經有的經驗,即具有學習功能。
- 鏈式規則(Chain Rule):
p(x1,x2,...,xK)=i=1∏Kp(xi∣x1,...,xi−1)
1.2.1 基於多個證據(z1,...,zn)的狀態估計(遞歸Bayes更新)
p(x∣z1,...,zn)=p(zn∣z1,...,zn−1)p(zn∣x,z1,...,zn−1)p(x∣z1,...,zn−1)
1.2.2 Markov假設
- zn獨立於z1,...,zn−1, 則有:
p(x∣z1,...,zn)=p(zn∣z1,...,zn−1)p(zn∣x)p(x∣z1,...,zn−1)
=ηp(zn∣x)p(x∣z1,...,zn−1)=[i=1...n∏(ηi⋅p(zi∣x))]p(x)
1.2.3 基於動作執行的狀態估計
- 執行動作u,把狀態x’變爲x:
p(x∣u,x′)
- 集成動作的結果
- 連續:
p(x∣u)=∫p(x∣u,x′)p(x′)dx′
- 離散:
p(x∣u)=∑p(x∣u,x′)p(x′)
1.2.4 Bayes Filter框架
- 給定條件:
- 一組觀測值z和控制數據u:dt={u1,z1,...,ut,zt}
- Sensor模型:p(z|x)
- 動作模型:p(x|u,x’)
- 系統狀態的先驗概率(Prior):p(x)
- z:觀測
- u:動作
- x:狀態
- 目標:
- 估計動態系統的狀態x
- 狀態的後驗概率也叫做Belief:Bel(xt)=p(xt∣u1,z1,...,ut,zt)
- Markov假設
1.2.5 Bayes Filters
Bel(xt)=p(xt∣u1,z1,...,ut,zt)
Bayes =ηp(zt∣xt,u1,zt,...,ut)p(xt∣u1,z1,...,ut)
Markov =ηp(zt∣xt)p(xt∣u1,z1,...,ut)
TotalProb. =ηp(zt∣xt)∫p(xt∣u1,z1,...,ut,xt−1)p(xt−1∣u1,z1,...,ut)dxt−1
Markov =ηp(zt∣xt)∫p(xt∣ut,xt−1)p(xt−1∣u1,z1,...,ut)dxt−1
Markov =ηp(zt∣xt)∫p(xt∣ut,xt−1)p(xt−1∣u1,z1,...,ut−1,zt−1)dxt−1
=ηp(zt∣xt)∫p(xt∣ut,xt−1)Bel(xt−1)dxt−1
1.3 概率圖模型
- 概率圖模型(Probabilistic Graphical Models)
- 有向圖模型用於表示隨機變量的聯合分佈
- 馬爾可夫模型(Markov Models)
- 模型假設對未來的預測僅僅依賴於最後一個觀測值
p(x1,x2,...,xK)=p(x1)i=2∏Kp(xi∣xi−1)
- 齊次馬爾可夫模型(Homogeneous Markov Model):所有p(xi∣xi−1)是相同的
1.4 狀態空間模型
- 狀態空間模型(State Space Model)
- xi:潛在或隱藏變量(Latent or Hidden Variables),形成馬爾可夫鏈 (狀態)
- zi:觀測變量(Observations Variables)(觀測值)
- 聯合概率分佈
p(x1,...,xK,z1,...,zK)=p(x1){i=2∏Kp(xi∣xi−1)}i=1∏Kp(zi∣xi)
- 隱馬爾可夫模型(HMM: Hidden Markov Model): 隱藏變量xi是離散的, 觀測變量zi是離散或是連續的
- 線性動態系統(LDS: Linear Dynamical System):隱藏變量xi和 觀測變量zi都是連續的,且滿足高斯分佈
- 狀態空間模型的三個組件:
- 變換模型(Transition Model):描述系統是如何演變的,它定義了概率分佈p(xi∣xi−1)
- 觀測模型(Observation/Sensor Model):定義了概率分佈p(zi∣xi)
- 先驗概率分佈(Prior Probability Distribution):組合所有隨機變量的聯合分佈p(x0)
- 狀態空間模型可完成的推理任務:
- 濾波(Filtering):基於所有觀測值計算後驗概率(posterior distribution)p(xk∣z1:k);以在線方式跟蹤系統的當前狀態
- 預測(Prediction):計算後驗概率 p(xk+t∣z1:k)t>0
- 平滑(Smoothing):計算後驗概率 p(xt∣z1:k)0≤t<k
- 尋找最優狀態序列(Most likely sequence):給定一個觀測序列,找到一個最有可能產生此觀測序列的狀態序列,如語音識別
\begin{equation}
\mathop{\arg\max}{x{1:k}} \ \mathrm{p}(x_{1:k} | z_{1:k})
\end{equation}
1.5 線性動態系統(LDS)
- 線性高斯狀態空間模型:Linear-Gaussian State Space Model
- Fk,HK:都是線性函數
- 線性高斯的特點(Linear-Gaussian)
- 線性變換不變性:高斯分佈經過線性變換之後仍然是高斯分佈
- 邊緣分佈不變性:給定高斯聯合分佈,所有推導出來的邊緣分佈仍然是高斯分佈
- 條件分佈不變性:給定高斯聯合分佈,所有推導出來的條件分佈仍然是高斯分佈
- 乘積分佈不變性:兩個高斯分佈相乘仍然是高斯分佈
- LDS定義:基於線性高斯假設的時間模型(Temporal Model)
- LDS表示:
- LDS假設:所有噪聲隨機變量相互獨立。
- F、G:根據運動學進行計算(即根據運動學列出每一個狀態變量的方程,然後求得F和G)
- H:根據觀測值與狀態值間的關係列出方程,然後求出觀測矩陣H
1.6 常用概率分佈
1.6.1 高斯分佈/正態分佈(Gaussian Distribution)
- 連續隨機變量最廣泛使用的分佈
- 特徵:
- 簡單:僅由兩個矩(參數)表示,均值(mean)和方差(variance)
- 中心極限定理:Central Limit Theorem (CLT)
- ** 一元概率密度函數(PDF)**
Nx(μ,σ2)=p(x)=σ2π1e−2σ2(x−μ)2
- 多元概率密度函數(PDF)
- x爲D維隨機向量{x1,x2,...,xD}
Nx(μ,Σ)=p(x)=∣Σ∣1/2(2π)D/21exp{−21(x−μ)TΣ−1(x−μ)}
2. 參數估計方法
- 參數估計的目的:根據觀測數據,估計其概率分佈的參數,使觀測數據出現的概率最大。
- (統計學)推斷:是從數據中推導一個概率分佈性質的過程。
- 參數估計的步驟:
- 根據觀測值,確定數據分佈的模型
- 用有效的方法求模型的參數
- 參數:在機器學習中,通常用一個模型來描述我們觀測到的數據,每個模型都有一組自己的參數,用於決定模型的質量,如高斯(正態)分佈的參數爲(μ,σ)
- 數據濾波:是去除噪聲還原真實數據的一種數據處理技術
- 狀態量:受噪聲干擾的狀態量是個隨機量,不可能測得精確值,但可對它進行一系列觀測,並依據一組觀測值,按某種統計觀點對它進行估計。使估計值儘可能準確地接近真實值,這就是最優估計。真實值與估計值之差稱爲估計誤差。若估計值的數學期望與真實值相等,這種估計稱爲無偏估計。
- 狀態估計:一般來說,根據觀測數據對隨機量進行定量推斷就是估計問題,特別是對動態行爲的狀態估計,它能實現實時運行狀態的估計和預測功能。比如對飛行器狀態估計。狀態估計對於瞭解和控制一個系統具有重要意義,所應用的方法屬於統計學中的估計理論。
- 最常用的估計方法:
- 最小二乘估計
- 線性最小方差估計
- 最小方差估計
- 遞推最小二乘估計
- 基於風險準則的估計方法:
- 高斯白噪聲(White Gaussian Noise):即噪聲與時間和空間是沒有關係的,而且符合相同的高斯分佈(Gaussian Distribution)
2.1 極大似然估計(MLE: Maximum Likelihood Estimation)
- MLE用途:是估計模型參數的一種方法,通過最大化觀測數據的總概率得到最終的參數值。
- MLE原理:因爲已經觀測到這些樣本數據,所以這些樣本數據的概率應該極大(最大),即最大化觀測數據的總概率。(即給定一系列觀測數據點,我們進行極大似然估計得到參數的估計,相當於得到關於數據集中這個參數變量的均值信息)
- MLE求解步驟:
- 似然函數(Likelihood function):給定觀測數據,模型參數取特定值的可能性
- 寫出似然函數:$L(\theta) = L(x_1,x_2,…,x_n; \theta_1, \theta_1, …, \theta_m),x_i爲觀測數據,\theta_j爲模型參數 ;觀測數據的似然函數L(\theta)是\theta的函數,隨\theta$的變化而變化
- 對似然函數取自然對數:即對數似然(Log Likelihood),用於去指數,把乘法變成加法,把除法變成減法,以方便後面求導 ;因爲ln(x)是單調函數,所以ln(x)與L(θ)的極值點位於相同的位置)
- 對各參數求偏導,令導函數爲0,組成似然方程組
- 解似然方程組,求得各個模型參數(此模型使得觀測到這些樣本數據的概率最大)
- 離散型似然函數
- 若X爲離散型, 其概率分佈爲:P(X=x)=p(x;θ) (分號後面的爲參數)
- X取到觀測值x1,x2,...,xn的概率爲:L(θ)=L(θ;x1,...,xn)=i=1∏np(xi;θ)
- 連續型似然函數
- 若X爲連續型, 其概率密度函數爲:f(x;θ) (分號後面的爲參數)
- X取到觀測值x1,x2,...,xn的概率爲:L(θ)=L(θ;x1,...,xn)=i=1∏nf(xi;θ)
2.1.1 參數的極大似然與數據的極大概率
- 極大似然(Maximum Likelihood) :L(θ;data),給定觀測數據,得到參數的似然
- 極大概率(Maximum Probability):p(data;θ),給定參數,得到觀測數據的概率
- 二者關係
L(θ;data)=p(data;θ)
2.1.2 極大似然估計與最小二乘法
- 最小二乘法(Least Squares): 在機器學習中,常用於估計模型參數的方法
- 若模型是高斯的,則極大似然估計與最小二乘法等價,證明
- 可以通過理解兩個方法的目標來解釋他們。對最小二乘估計,我們想要找到一條線,來最小化全部數據點和迴歸線的平方距離(可以看下面的圖)。對於極大似然估計,我們想要最大化數據的總概率。當假設爲高斯分佈時,數據點離均值近的時候得到最大概率。由於高斯分佈是對稱的,這等價於最小化數據點和均值之間的距離。
2.2 貝葉斯推斷進行參數估計(MAP估計)
- 貝葉斯推斷(BI)進行參數估計:Bayesian Inference for Parameter Estimation
- 用途:貝葉斯推斷是給定觀測數據,利用貝葉斯定理來推導概率分佈的性質。
- 原理:先驗分佈通過更新證據(evidence),從而計算出後驗分佈,然而求出後驗分佈的MAP。
- 計算公式:後驗分布=似然分布∗先驗分布
- BI與MLE的關係:BI可視爲MLE的一般化方法。
- 待估參數:我們通常用Θ表示感興趣的事件,它表示一組參數;下面以估計高斯分佈的參數爲例,則Θ表示高斯分佈的均值μ和標準差θ(公式表示爲:Θ={μ,θ})
- 觀測數據:以data表示,data={y1,y2,...,yn}
- 按貝葉斯定理,可寫成如下公式:
p(Θ∣data)=p(data)p(data∣Θ)p(Θ)
- p(Θ):先驗分佈,表示我們根據經驗對參數值的估計。
- p(Θ∣data):後驗分佈,表示每次用觀測數據更新先驗分佈獲得的新分佈。
- p(data∣Θ):似然分佈,它與極大似然估計中的似然函數L(Θ;data)類似(極大似然等於極大概率),有時也被稱爲證據(evidence)。
- p(data):並不參與概率分佈的計算,它只是一個數值。p(data)的值可以通過觀測數據獲得,其存在的意義在於使p(Θ∣data)所有可能的總和或積分爲1。
2.2.1 實例
- 三個分佈如下圖所示:
- 藍色分佈:先驗分佈(prior distribution),μ=3.6,標準差σ=0.2
- 金色分佈:根據5個金色數據點產生的似然分佈(likelihood distribution)
- 粉色分佈:由先驗分佈和似然分佈相乘產生的後驗分佈(posterior distribution)
- 後驗分佈最常見的統計數據之一是mode。這通常被用作估計感興趣的參數,被稱爲最大後驗概率估計(Maximum a posterior probability estimate)或者簡單地稱爲MAP估計。
2.2.2 工作原理
- 你對某物(例如參數的值)有一個先驗belief,然後接收一些數據。你可以根據上述公式來計算後驗分佈從而更新你的belief。之後,我們得到更多的數據,後驗成爲了新的先驗。我們可以用新數據來更新新的先驗,並且再次得到新的後驗。這個循環可以無限持續,所以能不斷更新你的beliefs。
- 先驗→新的數據→後驗→新的先驗→新的數據→後驗
- 卡爾曼濾波器(以及它的變體)就是一個很好的例子。它被用在很多情況下,但是可能在數據科學領域最重要的應用是自動駕駛汽車。
2.2.3 MAP估計與極大似然估計
- 當先驗分佈爲均勻分佈時(即先驗分佈爲常數,與樣本無關;直觀地說,它表示缺乏先驗知識),MAP估計等於MLE(極大似然估計)。
- 極大似然估計(MLE)可以看作是MAP估計的一個特例(沒有先驗知識的特例)
2.3 卡爾曼濾波器(Kalman Filter)
- 定義:卡爾曼濾波器是一種最優估計器,即可以從間接、不準確和不確定的觀測數據中推斷感興趣的參數。
- 卡爾曼濾波器的分類:
類別 |
特徵 |
KF |
要求是一個線性模型 |
EKF |
是一個非線性模型,通過Taylor展開進行局部線性化,在均值附件線性化 |
UKF |
是一個非線性模型,通過無損變換UT(Unscented Transforms)進行局部線性化,但其近似度更高 |
- 理論基礎:基於貝葉斯推斷進行參數估計,尋找估計參數的方法爲參數的均方誤差最小化。
- 基本假設:
- 原理:如果所有噪聲符合高斯分佈,則卡爾曼濾波最小化估計參數(estimated parameters)的均方誤差(MSE: Mean Square Error)σ ,即最大化其確定性。
- 爲什麼叫濾波器:它從有噪聲的數據中找到最好的估計,以達到濾除噪聲的目的
- 特性:
- 採用狀態空間描述法
- 線性估計
- 算法採用遞歸形式 (新的數據可以被實時處理,以獲得新的狀態 )
- 能處理多維和非平穩的隨機過程
- 用途:Kalman濾波在測量方差已知的情況下能夠從一系列存在測量噪聲的數據中,估計動態系統的狀態。對於解決大部分的問題,他是最優,效率最高甚至是最有用的。它廣泛應用於:
- 機器人導航
- 控制
- 傳感器數據融合
- 軍事方面的雷達系統以及導彈追蹤
- 計算機圖像處理(如人臉識別,圖像分割,圖像邊緣檢測等等)
- 高斯隨機變量線性變換特性
- 高斯隨機變量經過線性變換之後,仍然是高斯隨機變量
- 線性變換之後的均值和協方差如下:
- AΣxAT:叫做誤差傳播定律(Error Propagation Law)
- 狀態和狀態協方差公式
- Xk和Pk:分別爲狀態和狀態的協方差
- Kk:爲卡爾曼增益矩陣
2.3.1 KF (Kalman Filter 線性)
- xk和zk:都是線性組合,即是其它變量的線性組合
- x(k∣k)、P(k∣k):k時刻的狀態及狀態協方差,它基於所有至k時刻的觀測數據 (“prior”)
- x(k+1∣k)、P(k+1∣k):k+1時刻的狀態及狀態協方差,它基於所有至k時刻的觀測數據 (“prediction”)
- x(k+1∣k+1)、P(k+1∣k+1):k+1時刻的狀態及狀態協方差,它基於所有至k+1時刻的觀測數據 (“posterior”)
- ν:表示真正的觀測值與預測的觀測值之差
- Hk:經常用於表示一個簡單的座標系變換,如預測值xk是odom座標系,而觀測值zk是LaserScan局部座標系。
- 根據觀測值計算R:
- 卡爾曼濾波器循環(Kalman Filter Cycle)
- 測量預測(Measurement Prediction):經常是座標系變換(coordinate frame transform),狀態是基於全局/世界座標系,而觀測是基於局部Sensor座標系。
- 數據關聯(Data Association):如果有多個待估計的狀態或觀測值,需要把正確的預測值和觀測值進行配對,即一個預測值與哪一個觀測值相對應,以輸出正確的結果。通過統計兼容性測試來判斷預測值i與觀測值j之間的配置是正正確的。
2.3.2 EKF (Extended Kalman Filter 非線性)
2.3.3 UKF (Unscented Kalman Filter 非線性)
- 定義:對非線性模型一種效果更好的線性化方式(與Taylor展開比較)
- 實現方法:
- 計算一個Sigma點集合
- 通過非線性函數變換每個Sigma點 (所以叫做無損變換UT: Unscented Transform)
- 根據變換後的點及對應的權重計算高斯分佈 (而不像EFK哪樣在均值附近進行局部線性化)
- EKF變換過程如下:
- Sigma點(χ[i],ω[i])的符合以下要求,且χ[i],ω[i]沒有唯一解
- 計算Sigma點 χ[i]
- 計算權重ω[i]
- 計算要求的高斯分佈
- 無損變換參數
2.3.4 Particle Filter(粒子濾波)
- 如果數據的分佈是任意形式的,則不能採用高斯模型假設
- 使用基於樣本的不確定性表示,粒子過濾器(PF)是遞歸貝葉斯過濾器的實現,不對底層分佈和系統模型做任何假設
3. 數學基礎
3.1 概率論與統計學的區別
- 概率論:研究一個白盒,即知道盒子內的詳細內容(如有幾個白球,有幾個黑球,也就是常說的概率分佈),然後計算下一個摸出白球的概率。
- 統計學:研究一個黑盒,即不知道盒子內的詳細內容,只知道每次摸出來的是白球或黑球,其主要任務是根據實驗結果,來估計盒子內的詳細內容。
- 統計推斷:做統計推斷一般都需要對那個黑盒子做各種各樣的假設(即它符合什麼分佈),這些假設都是概率模型,統計推斷就是估計這些模型的參數。
3.2 一維離散隨機變量(均值、方差、標準差)
- 描述對象:一個隨機變量(即一個特徵)的多個樣本
- 樣本(抽樣):即有限個實驗樣本,其樣本數爲n
- 總體:所有樣本(即接近於隨機變量本身的概率分佈),設總體數爲N(接近於無窮大)
- 樣本方差中爲什麼除以n−1?
- 使得樣本方差更能反映總體方差,因爲樣本範圍內可能不包含總體均值,所以樣本方差如果以樣本個數n作爲分母,就往往比總體方差小一點。
| 概念 |總體(概率分佈) | 樣本 |
| ------------- |:-------------? -----?
| 均值(mean) | $\mu=\frac{1}{N}\sum_{i=1}^NX_i $ | x=n1∑i=1nxi |
| 方差(variance) | σ2=N1∑i=1N(Xi−μ)2 | 總體樣本的無偏見估計S2=n−11∑i=1n(xi−xˉ)2 |
| 標準差(standard deviation) | σ=σ2=N1∑i=1N(Xi−μ)2 | S=S2=n−11∑i=1n(xi−xˉ)2|
| 協方差(covariance) |Cov(X,Y)=N1∑i=0N(X−μx)(Y−μy) |Cov(x,y)=n−11∑i=1n(xi−xˉ)(yi−yˉ) |
| 相關係數(correlation coefficient) |ρX,Y=σXσYCov(X,Y) |ρx,y=SxSyCov(x,y) |
| 協方差矩陣(covariance matrix) | | |
3.2.1 數學期望(Expectation)
- 別名:數學期望或期望 (Expectation)
- 物理意義:描述一個特徵(即一個隨機變量)的平均水平,需要多個樣本纔有意義,但不能反映樣本個體情況
- E(隨機變量)的計算公式:在概率論和統計學中,均值(mean)(或數學期望,亦簡稱期望)是試驗中每次可能結果的概率乘以其結果的總和。嚴格的定義如下:
μ=E[x]=i=0∑∞xi⋅pi≈N1i=1∑Nxi(X是離散隨機變量)
- xi:表示一維隨機變量X的一個觀測樣本值
- pi:表示xi發生的概率
μ=E[x]=∫x⋅p(x)dx(X是連續隨機變量)
- p(x):隨機變量X的概率密度函數(PDF)
- E(隨機變量的函數)的計算公式:
E[f(x)]=∑f(x)⋅p(x)(x是離散隨機變量)
E[f(x)]=∫f(x)⋅p(x)dx(x是連續隨機變量)
E[f(x,y)]=∬f(x,y)⋅p(x,y)dxdy(x,y是連續隨機變量)
- 各種常用數學期望的專用名稱
- 數學期望(均值)和算術平均值(平均數)的關係
- 平均數:是根據實驗結果統計得到的隨機變量樣本計算出來的算術平均值,和實驗本身有關,其計算公式爲:
x=n1i=1∑nXi
- 數學期望(均值):是完全由隨機變量的概率分佈所確定的,和實驗本身無關;
- 二者的關係:實驗的次數多少是可以改變平均數的,而在你的分佈不變的情況下,期望是不變的。 如果我們能進行無窮次隨機實驗並計算出其樣本的平均數的話,那麼這個平均數其實就是期望。
- 性質
- 以下設a爲常數,x、y爲隨機變量
- E[a]=a
- E[a⋅f(x)]=aE[f(x)]
- E[f(x)+f(y))=E[f(x)]+E[f(y)]
- x與y相互獨立,E[f(x)⋅f(y)]=E[f(x)]⋅E[f(y)]
3.2.2 方差(variance)
- 方差:描述一個特徵(即一個隨機變量)的離散程度,即描述樣本集合中的各個樣本點到均值的距離的平均。
- 物理意義:在概率論中,方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。
- 計算公式:
σ2=D[x]=Var[x]=E[(x−E[x])2]≈N1i=1∑N(xi−μx)2(x爲離散隨機劉變量是)
σ2=D[x]=Var[x]=E[(x−E[x])2]=∫(x−μx)2⋅p(x)dx(x爲連續隨機劉變量是)
Var(x)=E[x2]−(E[x])2
- x:表示一維隨機變量
- E[x]:表示x的均值(即期望)
- D[x]、Var[x]:是每個樣本值與全體樣本均值之差的平方的平均數。
- 方差的性質:
- 以下設a爲常數,x、y爲隨機變量
- D[a]=0
- D[ax]=a2D[x]
- D[x+a]=D[x]
- D[x±y]=D[x]+D[y]±2Cov(x,y)
- x與y相互獨立:D[x+y]=D[x]+D[y]
- D[x]=0的充要條件是x以概率1取常數E[x],即P(x=E[x])=1
- D[ax+by]=a2D[x]+b2D[y]+2abCov(x,y)
3.2.3 標準差/均方差
- 物理意義:反映一個數據集的離散程度
- 計算公式:
σ=D[x]
- 標準差比方差的優勢:
- 和原始數值的單位一致,不需要使用單位的平方
- 標準差可以計算鍾型曲線(正態分佈)的中心值臨近區間的概率值,根據正態分佈定義,中心值的正負n倍 σ 構成的區間對應不同的概率值.在正態分佈中,正負一個標準差之內所佔比率爲全部數值之 68。2%;正負兩個標準差之內(深藍,藍)的比率合起來爲 95.4%;正負三個標準差之內(深藍,藍,淺藍)的比率合起來爲 99.6%。
- 在大樣本中一般使用樣本的標準差近似代替總體的標準差,儘管樣本標準差並不是理論上的無偏值,小樣本中偏差會比較大,但仍然可以通過t分佈模型等方法去估算。
3.2 多維隨機變量(協方差、相關係數、協方差矩陣)
- 均值、方差、標準差:描述了一個隨機變量多個樣本的統計屬性,若一個對象有多個特徵(多個隨機變量),如何描述多個隨機變量之間的關係呢?這正是協方差的用武之地。
3.2.1 協方差
- 協方差用途:用於描述兩個隨機變量在變化過程中是同方向變化,還是反方向變化?同向或反向的程度如何?
- 在你變大的時刻,我也變大,說明兩個隨機變量是同向變化的,這時協方差是正的。
- 在你變大的時刻,我變小,說明兩個隨機變量是反向變化的,這時協方差就是負的。
- 從數值來看,協方差的數值越大,兩個隨機變量同向程度也就越大,在本質上,協方差並不能很好地描述同向或反向程度如何,而相關係數反而能更好地描述同向或反向的程度。
- 協方差公式
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]≈E[(X−μx)(Y−μy)]=N1i=0∑N(X−μx)(Y−μy)
- X、Y:爲兩個隨機變量
- 若X和Y爲同一個隨機變量,則Cov(X,Y)爲X的方差,即Cov(X,Y)=σ2
- 同向變化
- 從上圖可知,X、Y均沿着各自的均值上下波動,且變化明顯是同向的
- 在任意時刻ti,(X−μx)與(Y−μy)正負符號相同,所以其乘積爲正;然後所有乘積相加,其結果仍然爲正
- 反向變化
- 從上圖可知,X、Y均沿着各自的均值上下波動,且變化明顯是反向的
- 在任意時刻ti,(X−μx)與(Y−μy)正負符號相反,所以其乘積爲負;然後所有乘積相加,其結果仍然爲負
- 在實際應用中,樣本數據不可能這麼有規律,會出現(X−μx)與(Y−μy)時而爲正,時而爲負,我們關注的重點是總體樣本,而不是個體樣本,只要其最後的Con(X,Y)爲正,則表明X、Y的同向變化是大趨勢,且值(正數)越大,則同向程度越高;若爲負,則表明X、Y的反向變化是大趨勢,且值(負數)越小,則反向程度越高。
3.2.2 相關係數
-
相關係數公式
ρX,Y=σXσYCov(X,Y)
- 即用X、Y的協方差除以X的標準差和Y的標準差。
- 相關係數:可以看作是經過歸一化之後特殊協方差
- 即值範圍:[−1,1]
- 反映兩個隨機變量變化時是同向還是反向變化,如果同向變化就爲正,反幾變化變爲負。
- 它消除了兩個隨機變量變化幅度的影響,從而單純地反映兩個隨機變量每單位變化時的相似程度。
-
相關係數用途
- 從上圖可知,情況1與情況2在任意時刻都是同向變化,且均值相同
- 很明顯,情況1的協方差大於情況2的協方差,因爲情況1中的(X−μx)大於情況2中的(X−μx)
- 從本質上分析,情況1與情況2的同向程度相同,但協方差卻不一樣,所以協方差描述同向程度是不準確的,因爲它受變化幅度的影響
- 而相關係數ρx,y卻是相同的,所以相關係數能很好地刻畫同向程度,剔除了變化幅度的影響
-
協方差與相關係數
- 協方差受變化幅度的影響
- 相關係數不受變化幅度的影響,能很好地描述同向或反向程度
-
相關係統各個值域的含義
- 相關係數爲1:表明兩個隨機變量變化時的正向相似度最大,二者變化的倍數(即Y=aX且a>0)相同(你變大一倍,我也變大一倍;你變小一倍,我也變小一倍),即完全相關(以X、Y爲橫縱座標軸,可以畫出一條斜率爲正的直線,所以X、Y是線性關係的)
- 相關係數爲[0,1):隨着相關係數減小,兩個隨機變量變化時的相似度也變小,當爲0時,兩個變量的變化過程沒有任何相似度,即變量無關。
- 相關係數爲(-1,0]:當相關係數小於0,兩個隨機變量開始出現反向的相似度,隨着相關係數減小,反向相似度會逐漸變大
- 相關係數爲-1:表明兩個隨機變量變化時的反向相似度最大,二都變化的倍數相反(Y=bX且b<0),即你變大一倍,我變小一倍;你變小一倍,我變大一倍。即完全負相關(以X、Y爲橫縱座標軸,可以畫出一條斜率爲負的直線,所以X、Y是線性關係的)
3.2.3 協方差矩陣
-
兩個隨機變量間可以計算其協方差,以描述其同向或反向程度,若一個對象包含有n個隨機變量,如何描述其任意兩個隨機變量的協方差呢? 答案是協方差矩陣。
-
描述對象:協方差矩陣計算的是不同維度(即不同隨機變量)之間的協方差,而不是不同樣本之間的。
-
定義:
- 樣本有n個隨機變量,協方差矩陣就是這n個隨機變量中任意兩個隨機變量的協方差組成的矩陣
- 矩陣中的數據按行排列與按列排列求出的協方差矩陣是不同的,這裏默認數據是按行排列。即每一行是一觀察樣本(observation sample),那麼每一列就是一個隨機變量。
- 記Xm×n:爲有m個樣本,且每個樣本有n個隨機變量的矩陣:
Xm×n=⎣⎢⎢⎢⎡a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn⎦⎥⎥⎥⎤=[c1c2⋯cn]
- c1:爲第一列隨機變量的m個樣本值,它是一個列向量,且爲cm×1
- 協方差矩陣定義爲:
∑=covMatrix=m−11⎣⎢⎢⎢⎡Cov(c1,c1)Cov(c2,c1)⋮Cov(cn,c1)Cov(c1,c2)Cov(c2,c2)⋮Cov(cn,c2)⋯⋯⋱⋯Cov(c1,cn)Cov(c2,cn)⋮Cov(cn,cn)⎦⎥⎥⎥⎤
- 協方差矩陣的維度等於樣本中隨機變量的個數,即每一個樣本的維度。在某些場合前邊也會出現 1 / m,而不是 1 / (m - 1)。
-
計算方法:先讓樣本矩陣(矩陣的一行爲一個樣本)中心化(矩陣記作XD),即每一維度減去該維度的均值,使每一維度上的均值爲0,然後直接用中心化的樣本矩陣的轉置(XT)乘上它自己(X),然後除以樣本數(N)即可。
XD=XDm×n=[cd1cd2⋯cdn]
xj=m1i=1∑mai,jcdj=⎣⎢⎢⎢⎡a1,j−xja2,j−xj⋮am,j−xj⎦⎥⎥⎥⎤
∑=covMatrix=m−11XDTXD
-
性質
- 協方差矩陣始終是一個對稱矩陣,其對角線上是方差,非對角線上是協方差。
- 協方差矩陣對角線上的元素其實就是對應隨機變量的方差:Cov(X,X)=Var(X)=σ2
- 對於隨機變量X,Y, 則有Cov(X,Y)=Cov(Y,X)
-
協方差矩陣定義數據形狀
- 協方差矩陣定義了我們數據的傳播(方差)和方向(協方差)。
###2.2.4協方差矩陣的特徵值分解
- 協方差矩陣定義了我們數據的傳播(方差)和方向(協方差)。因此,如果我們想用一個向量和它的大小來表示協方差矩陣,我們應該簡單地嘗試找到指向數據最大傳播方向上的向量,其大小等於這個方向上的傳播(方差)。
- 協方差矩陣的最大特徵向量總是指向數據最大方差的方向,並且該向量的幅度等於相應的特徵值。第二大特徵向量總是正交於最大特徵向量,並指向第二大數據的傳播方向。
- 協方差矩陣是對角矩陣:
- 當協方差是零時,方差必須等於特徵值λ。如下圖所示,特徵向量用綠色和品紅色表示,特徵值顯然等於協方差矩陣的方差分量。
- 協方差矩陣不是對角矩陣
- 當協方差不爲零,那麼情況稍微更復雜一些。特徵值仍代表數據最大傳播方向的方差大小,協方差矩陣的方差分量仍然表示x軸和y軸方向上的方差大小。但是,因爲數據不是軸對齊的,所以這些值不再與上圖所示的相同。
- 特徵值:表示沿特徵向量方向數據的方差,而協方差矩陣的方差分量表示沿軸的傳播。如果沒有協方差,則這兩個值是相等的。
- 特徵向量表示數據最大方差的方向,特徵值表示特徵向量方向方差的幅度。
- 協方差矩陣與白色不相關數據的線性變換有直接的關係,此線性變換完全由數據的特徵向量和特徵值確定。而特徵向量表示旋轉矩陣,特徵值對應於每個維度上縮放因子的平方。
[參考]
http://ais.informatik.uni-freiburg.de/teaching/ss18/robotics/slides
http://ais.informatik.uni-freiburg.de/teaching/ss11/robotics/slides/09b-errorprop.pdf
EKF Tutorial (直觀理解,淺顯易懂)
Unscented Kalman Filter