參數估計與矩陣運算基礎
ps: 個人筆記 根據視頻和PDF學習
1 期望
離散型:
連續型:
即:概率加權下的“平均值”
期望的性質
無條件成立
若X和Y相互獨立
反之不成立。事實上,若E(XY)=E(X)E(Y),只能說明X和Y不相關。關於不相關和獨立的區別,稍後馬上給出。
2 方差
定義
無條件成立
X和Y獨立
纔可以成立。
此外,方差的平方根,稱爲標準差
3 協方差
定義
性質:
協方差和獨立、不相關
X和Y獨立時,
而
從而,當X和Y獨立時,
但X和Y獨立這個前提太強,我們定義:若Cov(X,Y)=0,稱X和Y不相關。因爲獨立時,肯定協方差爲0;但是協方差爲0,並不一定獨立,所以提出不相關的概念。
協方差的意義
協方差是兩個隨機變量具有相同方向變化趨勢的度量;
若Cov(X,Y)>0,它們的變化趨勢相同,
若Cov(X,Y)<0,它們的變化趨勢相反;
若Cov(X,Y)=0,稱X和Y不相關。
思考:兩個隨機變量的協方差,是否有上界?
協方差的上界
若
則
當且僅當X和Y之間有線性關係時,等號成立。
再談獨立與不相關
因爲上述定理的保證,使得“不相關”事實上即“線性獨立”。即:若X與Y不相關,說明X與Y之間沒有線性關係(但有可能存在其他函數關係),不能保證X和Y相互獨立。PS:緊緊是線性獨立。
⭐但對於二維正態隨機變量,X與Y不相關等價於X與Y相互獨立。
4 相關係數
定義
由協方差上界定理可知,
容易看到,相關係數是標準尺度下的協方差。上面關於協方差與XY相互關係的結論,完全適用於相關係數和XY的相互關係。
協方差矩陣
對於n維隨機向量(X 1 ,X 2 …X n ),任意兩個元素Xi和Xj都可以得到一個協方差,從而形成n*n的矩陣;顯然,協方差矩陣是對稱陣。對角線上就是方差5 矩
對於隨機變量X,X的k階原點矩爲
方差就是X的二階中心距。
統計參數的總結
均值(期望,一階)方差(標準差,二階)
變異係數(Coefficient of Variation):標準差與平均數的比值稱爲變異係數,記爲C·V
偏度Skew(三階)
峯度Kurtosis(四階)
偏度
偏度衡量隨機變量概率分佈的不對稱性。偏度的值可以爲正,可以爲負或者無定義。
偏度爲負(負偏態)意味着在概率密度函數左側的尾部比右側的長,絕大多數的值(包括中位數在內)位於平均值的右側。
偏度爲正(正偏態)意味着在概率密度函數右側的尾部比左側的長,絕大多數的值(包括中位數在內)位於平均值的左側。
偏度爲零表示數值相對均勻地分佈在平均值的兩側,但不一定意味着一定是對稱分佈。
偏度公式
其中μ 3 是三階中心矩,σ是標準差。E是期望算子。等式的最後以三階累積量與二階累積量的1.5次方的比率來表示偏度。這和用四階累積量除去二階累積量的平方來表示峯度的方法向類似。偏度有時用Skew[X]來表示。
峯度
峯度通常被定義四階中心矩除以方差的平方再減去3:
也被稱爲超值峯度(excess kurtosis)。
“減3”是爲了讓正態分佈的峯度爲0。
如果超值峯度爲正,稱爲尖峯態(leptokurtic),超值峯度爲負,稱爲低峯態(platykurtic)。
6 切比雪夫不等式
設隨機變量X的期望爲μ,方差爲σ 2 ,對於任意整數ε,有:
該不等式進一步說明了方差的含義,即方差越小越靠近期望。
該不等式可證明大數定理。
7 大數定理
設隨機變量X 1 ,X 2 …X n …互相獨立,並且具有相同的期望μ和方差σ 2 。作前n個隨機變量的平均
,則對於任意整數ε,有
大數定理的意義
當n很大時,隨機變量X 1 ,X 2 …X n 的平均值Y n在概率意義下無限接近期望μ 。出現偏離是可能的,但這種可能性很小,當n無限大時,這種可能性的概率爲0。PS:⭐用頻率估計概率可以從大數定理中得到
重要推論
一次試驗中事件A發生的概率爲p;重複n次獨立試驗中,事件A發生了n A 次,則p、n、n A 的關係滿足:對於任意整數ε,
8 伯努利定理
上述推論是最早的大數定理的形式,稱爲伯努利定理。該定理表明事件A發生的頻率n A /n以概率收斂於事件A的概率p,以嚴格的數學形式表達了頻率的穩定性。上述事實爲我們在實際應用中用頻率來估計概率提供了一個理論依據。
回憶一下樸素貝葉斯做垃圾郵件分類的例子,就是用的頻率估計的概率。
9 中心極限定理
設隨機變量X 1 ,X 2 …X n …互相獨立,服從同一分佈,並且具有相同的期望μ和方差σ **2 ,則隨機變量
的分佈收斂到標準正態分佈。
容易得到: 收斂到正態分佈N(nμ,nσ **2 )
中心極限定理的意義
實際問題中,很多隨機現象可以看做許多因素的獨立影響的綜合反應,往往近似服從正態分佈。城市耗電量:大量用戶的耗電量總和
測量誤差:許多觀察不到的、微小誤差的總和
注意:是多個隨機變量的和纔可以,有些問題是乘性誤差,則需要鑑別或者取對數後再使用。
線性迴歸中,將使用該定理論證最小二乘法的合理性
10 樣本的統計量
設X 1 ,X 2 ,…,X n 爲一組樣本,則樣本均值
樣本方差
⭐樣本方差的分母使用n-1而非n,是爲了無偏。
11 樣本的矩
k階樣本原點矩
k階樣本中心矩
思考
隨機變量的矩和樣本的矩,有什麼關係?換個提法:假設總體服從某參數爲θ(存在且未知,有可能是值或者向量)的分佈,從總體中抽出一組樣本X 1 ,X 2 …,X n ,如何估計參數θ?樣本是獨立同分布的
可以通過X 1 ,X 2 …,X n 方便的計算出樣本的k階矩
假設樣本的k階矩等於總體的k階矩,可估計出總體的參數。
12 矩估計
設總體的均值爲μ,方差σ 2 ,(μ和σ未知,待求)則有中心距表達式:
根據該總體的一組樣本,求得中心距:
矩估計的結論
根據各自階的中心矩相等,計算得到:
由於是根據樣本求得的估計結果,根據記號習慣,寫作:
⭐用樣本的均值作爲總體的均值,用樣本的僞方差作爲總體的方差
例:正態分佈的矩估計
在正態分佈的總體中採樣得到n個樣本:X 1 ,X 2 …X n ,估計該總體的均值和方差。解:直接使用矩估計的結論
例:均勻分佈的矩估計
設X1,X2,…,Xn爲定義在[a,b]上的均勻分佈的總體採樣得到的樣本,求a,b。解:已知均勻分佈的均值和方差爲
矩估計要求滿足
從而
13 極大似然估計
設總體分佈爲f(x,θ) ,X 1 , X 2 … X n 爲該總體採樣得到的樣本。因爲X 1 ,X 2 …X n 獨立同分布,於是,它們的聯合密度函數爲:
求參數θ的值,使得似然函數取極大值,這種方法就是極大似然估計。
PS:⭐這裏是對最大似然估計中爲什麼“最大”的解釋!!!
極大似然估計的具體實踐操作
在實踐中,由於求導數的需要,往往將似然函數取對數,得到對數似然函數;若對數似然函數可導,可通過求導的方式,解下列方程組,得到駐點,然後分析該駐點是極大值點
極大似然估計
找出與樣本的分佈最接近的概率分佈模型。簡單的例子,10次拋硬幣的結果是:正正反正正正反反正正。假設p是每次拋硬幣結果爲正的概率。則:得到這樣的實驗結果的概率是:
極大似然估計MLE
目標函數:
思考:如何求解?
一般形式
正態分佈的極大似然估計
若給定一組樣本X 1 ,X 2 …X n ,已知它們來自於高斯分佈N(μ,σ),試估計參數μ,σ。
按照MLE的過程分析
高斯分佈的概率密度函數:
將X i 的樣本值x i 帶入,得到:
化簡對數似然函數:
參數估計的結論
目標函數
將目標函數對參數μ,σ分別求偏導,很容易得到μ,σ的式子:
符合直觀想象
上述結論和矩估計的結果是一致的,並且意義非常直觀:樣本的均值即高斯分佈的均值,樣本的方差即高斯分佈的方差。注:經典意義下的方差,分母是n-1;在似然估計的方法中,求的方差是n
該結論將在EM(期望最大化算法)、高斯混合模型中將繼續使用。
線性代數
方陣的行列式(遞歸定義)1階方陣的行列式爲該元素本身
n階方陣的行列式等於它的任一行(或列)的各元素與其對應的代數餘子式乘積之和。
14 範德蒙行列式Vandermonde
證明範德蒙行列式Vandermonde:
提示:數學歸納法
15 矩陣的乘法
A爲m×s階的矩陣,B爲s×n階的矩陣,那麼,C=A×B是m×n階的矩陣,其中,
16 矩陣的秩
在m×n矩陣A中,任取k行k列,不改變這k 2 個元素在A中的次序,得到k階方陣,稱爲矩陣A的k階子式。顯然,m×n矩陣A的k階子式有 個。
設在矩陣A中有一個不等於0的r階子式D,且所有r+1階子式(如果存在的話)全等於0,那麼,D稱爲矩陣A的最高階非零子式,r稱爲矩陣A的秩,記做R(A)=r。
n×n的可逆矩陣,秩爲n
可逆矩陣又稱滿秩矩陣
矩陣的秩等於它行(列)向量組的秩
17 秩與線性方程組的解的關係
對於n元線性方程組Ax=b,無解的充要條件是R(A)<R(A,b)有唯一解的充要條件是R(A)=R(A,b)=n
有無限多解的充要條件是R(A)=R(A,b)<n
推論
Ax=0有非零解的充要條件是R(A)<nAx=b有解的充要條件是R(A)=R(A,b)
18 向量組等價
向量b能由向量組A:a 1 ,a 2 ,...,a m 線性表示的充要條件是矩陣A=(a 1 ,a 2 ,...a m )的秩等於矩陣B=(a 1 ,a 2 ,...a m ,b)的秩。設有兩個向量組A:a 1 ,a 2 ,...,a m 及B:b 1 ,b 2 ,...,b n ,若B組的向量都能由向量組A線性表示,則稱向量組B能由向量組A線性表示。若向量組A與向量組B能相互線性表示,則稱兩個向量組等價。
19 係數矩陣
把向量組A和B所構成的矩陣依次記做A=(a 1 ,a 2 ,...,a m )和B=(b 1 ,b 2 ,...,b n ),B組能由A組線性表示,即對每個向量b j ,存在
使得
從而得到係數矩陣K
對C=AB的重認識
由此可知,若C=AB,則矩陣C的列向量能由A的列向量線性表示,B即爲這一表示的係數矩陣。向量組B: b 1 ,b 2 ,...,b n 能由向量組A: a 1 ,a 2 ,...,a m線性表示的充要條件是矩陣A=(a 1 ,a 2 ,...,a m )的秩等於矩陣(A,B)=(a 1 ,a 2 ,...,a m ,b 1 ,b 2 ,...,b n )的秩,即:R(A)=R(A,B)
20 正交陣
若n階矩陣A滿足A T A=I,成A爲正交矩陣,簡稱正交陣。A是正交陣的充要條件:A的列向量都是單位向量,且兩兩正交。
A是正交陣,x爲向量,則A . x稱作正交變換。
正交變換不改變向量長度
21 特徵值和特徵向量
A是n階矩陣,若數λ和n維非0列向量x滿足Ax=λx,那麼,數λ稱爲A的特徵值,x稱爲A的對應於特徵值λ的特徵向量。根據定義,立刻得到(A-λI)x = 0,令關於λ 的多項式|A-λI|爲0,方程|A-λI|=0的根爲A的特徵值;將根λ 0 帶入方程組(A-λI)x = 0 ,求得到的非零解,即λ 0 對應的特徵向量。
22 特徵值的性質
設n階矩陣A=(a ij )的特徵值爲λ 1 ,λ 2 ,...λ n ,則λ 1 +λ 2 +...+λ n =a11+a22+…+ann
λ 1 λ 2 …λ n =|A|
矩陣A主行列式的元素和,稱作矩陣A的跡。
已知λ是方陣A的特徵值,則λ 2 是A 2 的特徵值; A可逆時,λ -1 是A -1 的特徵值。
23 不同特徵值對應的特徵向量
設λ 1 ,λ 2 ,...,λ m 是方陣A的m個特徵值,p 1 ,p 2 ,...,p m是依次與之對應的特徵向量,若λ 1 ,λ 2 ,...,λ m 各不相等,則p 1 ,p 2 ,...,p m 線性無關。總結
不同特徵值對應的特徵向量,線性無關。
若方陣A是對稱陣呢?結論是否會加強?
協方差矩陣、二次型矩陣、無向圖的鄰接矩陣等都是對稱陣
在譜聚類中將會有所涉及
24 實對稱陣不同特徵值的特徵向量正交
令實對稱矩陣爲A,它的兩個不同的特徵值λ 1 λ 2 對應的特徵向量分別是μ 1 μ 2則有:Aμ 1 =λ 1 μ 1 , Aμ 2 =λ 2 μ 2
(Aμ 1 ) T =(λ 1 μ 1 ) T ,從而:μ 1 T A=λ 1 μ 1 T
所以:μ 1 T Aμ 2 =λ 1 μ 1 T μ 2
同時,μ 1 T Aμ 2 =μ 1 T (Aμ 2 )=μ 1 T λ 2 μ 2 = λ 2 μ 1 T μ 2
所以,λ 1 μ 1 T μ 2 =λ 2 μ 1 T μ 2
故:(λ 1 -λ 2 ) μ 1 T μ 2 =0
而λ 1 ≠λ 2 ,所以μ 1 T μ 2 =0,即:μ 1 ,μ 2 正交。
25 實對稱陣的特徵值是實數
設複數λ爲對稱陣A的特徵值,復向量x爲對應的特徵向量,即Ax=λx(x≠0)用 表示λ的共軛複數, 表示x的共軛復向量,而A是實矩陣,有
利用上述結論很快得到:將實數λ帶入方程組(A- λ I)x=0,該方程組爲實係數方程組,因此,實對稱陣的特徵向量可以取實向量。
最終結論
設A爲n階對稱陣,則必有正交陣P,使得
Λ是以A的n個特徵值爲對角元的對角陣。
26 二次型
含有n個變量的二次齊次函數,稱爲二次型;一個二次型對應一個對稱陣;
而對稱陣可以由正交陣對角化,
從而二次型可以化成只有n個變量平方項的標準型,而這個正交陣,對應着座標系的旋轉變化。
27 正定陣
對於n階方陣A,若任意n階向量x,都有x T Ax>0,則稱A是正定陣。若條件變成x T Ax≥0,則A稱作半正定陣
類似還有負定陣,半負定陣。
正定陣的判定
對稱陣A爲正定陣;
A的特徵值都爲正;
A的順序主子式大於0;
以上三個命題等價。