第一:方差
定義:隨機變量或者一組數據離散情況的度量。
爲啥分母 n-1?
- a、目的:方差的估計是無偏的。
- b、原因:實際工作中,總體均數難以得到時,只能應用樣本統計量代替總體參數。
- c、解釋:分子上求期望【理解爲求樣本均值】已經用掉所有的自由度n;
- 事實上,如果分母n,因爲第n個數,已經由n-1個數,和期望決定了,所有其沒有信息量,所有要n-1。
- 簡單說了,分子的期望,用掉了一個自由度。
第二:協方差
定義:在概率論和統計學中用於衡量兩個變量的總體誤差。
而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
- 方差: Var(X) = E[ (X-E(X)) * (X-E(X)) ]
- 協方差:Cov(X,Y)= E[ (X-E(X)) * (Y-E(Y)) ]
以上兩個顯然相似,方差就是協方差的特殊情況。
- 協方差爲+,說明兩個變量正相關。
- 協方差爲-, 說明兩個變量負相關。
***************************************************************************************************************************
觀察一下公式。如果你認爲x和y是正相關,那麼你會expect x大於平均數的時候y也大於平均數,這就造成了x-EX與y-Ey相乘的每一項爲正,加和也爲正。所以如果協方差大於零,反應x與y正相關
***************************************************************************************************************************
第三:相關係數
定義:相關關係是一種非確定性的關係,相關係數是研究變量之間線性相關程度的量。
X、Y的協方差除以X的標準差和Y的標準差。
可以這樣理解:相關係數是,剔除兩個變量 量綱的影響,標準化後的’協方差‘。
特徵:消除了兩個變量變化幅度的影響,而只是單純反應兩個變量每單位變化時的相似程度。
值域:【-1,1】
顯然,當變量x和變量y相同時,協方差=方差,p爲1。
**************************************************************************************************************************
協方差:Cov(X,Y)= E[ (X-EX) * (Y-EY) ]
*************************************************************************************************************************
第四:餘弦度量距離=相關係數?
==========================================================================
背景知識
1、餘弦
cosA = 臨邊/斜邊 = b/c。
2、餘弦第二定理【證明很簡單】
3、向量點積【降級,得到一個標量】
兩個向量 a = [X1, X2,…, Xn]
b = [Y1, Y2,…, Yn]
點積定義爲:a·b=X1Y1+X2Y2+……+XnYn。
點積的幾何解釋:向量a在向量b上的投影長度,乘以b的模。
4、設向量a,b的夾角θ。
a·b = |a| × |b| × cosθ 【證明】
變形:cosθ =(a・b)/|a||b|
5、內積空間【又稱歐幾里得空間】
在一個有限維的向量空間,私人定製一個運算規則,如果我們定義了內積運算規則,那麼這個空間,稱爲內積空間。
內積空間比向量空間多一種運算,就會多很多數學工具。
百度百科定義:
在數學上,內積空間是增添了一個額外的結構的矢量空間。這個額外的結構叫做內積或標量積。這個增添的結構將一對矢量與一個純量連接起來,允許我們嚴格地談論矢量的“夾角”和“長度”,並進一步談論矢量的正交性。
==========================================================================
由相關係數定義,得到其主要目的是研究變量之間相關程度。
展開一下,我們也可以用“距離”,來衡量兩個變量的相關性。
假設:兩組變量a,b,將各自參數排成一排,就可以看作兩個向量a,b。
在這個n空間,也就是我們定義內積運算得到內積空間中。
1、空間由兩個向量,我們怎麼定義其距離或者是相關性?
自然想到向量的夾角,夾角大,則距離大,夾角小,則距離小。
2、怎樣計算夾角?
cosθ =(a・b)/|a||b|
點積容易計算,向量的模也好計算。
3、參考相關係數公式
夾角公式: cosθ =(a・b)/|a||b|
分子就是點積:X1Y1+X2Y2+……+XnYn
分母就是向量a,b的模。
cosθ = E(XY)
/(E[X]*E[Y])
根號不會打,分母需要根號,因爲求的是向量模。
4、計算夾角的限制條件?
1、因爲根據協方差公式Cov(X,Y)= E[ (X-EX) * (Y-EY) ],需要每個參數各自減掉均值.
而向量a,b的點積=E[XY]=X1Y1+X2Y2+……+XnYn 並沒有減掉均值,
2、在根據相關係數公式,協方差/各自標準差,
向量a,b的模也沒有減掉均值。
所以,在計算cosθ,先要將向量a,b進行均值化。