要容易理解ICA,就需要先好好理解透徹下面這些概率統計和線性代數的知識點:高斯分佈、概率密度函數、累積分佈函數、複合函數的概率密度函數、行列式、代數餘子式、矩陣微積分等。下面一一簡單記錄和複習下這些概念,俗話說書讀百遍其義自見,這裏再多寫一遍也不爲過。
1.ICA概念
Independent Component Correlation Algorithm,ICA,獨立成分分析算法,是一種函數。
X爲n維觀測信號矢量,S爲獨立的m維未知源信號矢量,矩陣A被稱爲混合矩陣。
ICA的目的就是尋找解混矩陣W(W=A的逆矩陣),然後對X進行線性變換,得到輸出向量U = WX = WAS
主要應用於:表情分類
ICA詳細的計算過程的原理推理,詳見後面文章:點我
2.高斯分佈
2.1名稱
Normal Distribution,正態分佈,也稱常態分佈,又名高斯分佈(Gaussian Distribution)。是一個在數學、物理及工程等領域都非常重要的概率分佈。
2.2正態分佈
若隨機變量X服從一個數學期望μ,方差爲σ^2的正態分佈,則記作N(μ,σ^2)。
隨機變量X的概率密度函數爲:μ決定了其位置,標準差σ決定了分佈的幅度。
2.3標準正態分佈
當μ=0,σ=1時的正態分佈爲標準正態分佈。
2.4正態分佈<--->標準正態分佈
爲了便於描述和應用,將正態變量X作爲數據轉換,將一般正態分佈轉化爲標準正態分佈:
X就是一般正態分佈,Y就是由X轉換來的標準正態分佈。
2.5正態分佈幾何形態
正態分佈是一個概率分佈,其形狀神似一個倒扣的鐘。
此圖來自百度百科。
2.6一維正態分佈的概率密度函數
若隨機變量X服從一個數學期望μ,方差爲σ^2的正態分佈,則記作N(μ,σ^2)。則其概率密度函數爲:
X被稱爲正態隨機變量,稱正態隨機變量X服從的分佈稱爲正態分佈,記作,讀作X服從,或者X服從正態分佈。
2.7標準正態分佈
當 時,正態分佈就成爲標準正態分佈,標準正態分佈的概率密度函數爲:
3.概率密度函數
probability density function,概率密度函數,也可以稱爲密度函數,一般簡寫爲小寫的pdf。注:概率密度函數 是連續型隨機變量的;離散隨機變量的,就是概率P(x)。
概率密度函數是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數。
而隨機變量的取值落在某個區域之內的概率則爲概率密度函數在這個區域上的積分。
對於一維實隨機變量X,設X的累積分佈函數CDF是,如果存在可測函數滿足:
那麼X是一個連續型隨機變量,並且 是X的概率密度函數。
密度函數f(x) 具有下列性質:
① ;
② ;
③
注:連續型的隨機變量取值在任意一點的概率都是0;如果概率P{x=a}=0,但{X=a}並不是不可能事件。
4.複合函數的概率密度函數
X的概率密度fX(x),若Y = ax,a是某個正實數,求Y的概率密度注:如果a是負實數,則給結論的第一個1/a加上絕對值
注:如果Y和X是向量,A是矩陣的話,結論第一個1/a就變成|A|-1,第二個1/a就變成A-1。
5.累積分佈函數/分佈函數
CDF,Cumluative Distribution Function,累積分佈函數,又叫分佈函數,是概率密度函數的積分,可以完整描述一個實隨機變量X的概率分佈。
概率分佈:
隨機變量的概率分佈,即隨機變量的可能取值以及取得對應值的概率。
pdf和CDF:
一般用大寫的CDF標記累積分佈函數,分佈函數。一般用小寫的pdf標記概率密度函數。
累積分佈函數的概念公式爲:
舉例一個離散隨機變量的累積分佈函數/分佈函數的幾何圖形:
此圖來自百度百科
CDF的性質
(1)有界性
(2)單調性
(3)右連續性
(4)X取值落在區間(a,b]之內的概率:
(5)隨機變量X的CDF和pdf的關係:
6.聯合分佈函數/多維分佈函數
joint distribution function,聯合分佈函數、也稱爲多維分佈函數,多維隨機變量的分佈函數。
設(X,Y)是二維隨機變量,對於任意實數x,y,有二元函數F(x,y):
F(x,y) = P{(X<=x) 交 (Y<=y)} => P(X<=x, Y<=y),
稱F(X,Y)爲二維隨機變量(X,Y)的分佈函數,或稱爲隨機變量X和Y的聯合分佈函數。
幾何意義
如果將二維隨機變量(X,Y)看成是平面上隨機點的座標,那麼聯合分佈函數F(X,Y)在(x,y)處的函數值就是隨機點(X,Y)落在以(x,y)爲頂點而位於該點左下方的無窮矩形區域內的概率。
二維離散隨機變量X,Y的聯合分佈函數
則X,Y的概率分佈函數一定滿足:
7.行列式求導
注:
8.離散隨機變量的分佈律
分佈律描述了離散隨機變量取每個值各佔的概率
(end)