【統計學習1】方差、協方差、相關係數與向量內積

第一:方差

定義:隨機變量或者一組數據離散情況的度量。



爲啥分母 n-1?

  • a、目的:方差的估計是無偏的。
  • b、原因:實際工作中,總體均數難以得到時,只能應用樣本統計量代替總體參數。
  • c、解釋:分子上求期望【理解爲求樣本均值】已經用掉所有的自由度n;
  •                事實上,如果分母n,因爲第n個數,已經由n-1個數,和期望決定了,所有其沒有信息量,所有要n-1。
  •                簡單說了,分子的期望,用掉了一個自由度。

第二:協方差

定義:在概率論和統計學中用於衡量兩個變量的總體誤差。

          而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。



  • 方差:   Var(X)    = E[ (X-E(X)) *  (X-E(X)) ]
  • 協方差:Cov(X,Y)= E[ (X-E(X))  *  (Y-E(Y)) ]

以上兩個顯然相似,方差就是協方差的特殊情況。

  • 協方差爲+,說明兩個變量正相關。
  • 協方差爲-, 說明兩個變量負相關。

***************************************************************************************************************************

觀察一下公式。如果你認爲x和y是正相關,那麼你會expect x大於平均數的時候y也大於平均數,這就造成了x-EX與y-Ey相乘的每一項爲正,加和也爲正。所以如果協方差大於零,反應x與y正相關

***************************************************************************************************************************


第三:相關係數

定義:相關關係是一種非確定性的關係,相關係數是研究變量之間線性相關程度的量。


X、Y的協方差除以X的標準差和Y的標準差。

可以這樣理解:相關係數是,剔除兩個變量 量綱的影響,標準化後的’協方差‘。

特徵:消除了兩個變量變化幅度的影響,而只是單純反應兩個變量每單位變化時的相似程度。

值域:【-1,1】

顯然,當變量x和變量y相同時,協方差=方差,p爲1。

**************************************************************************************************************************

   知乎上標準化協方差的解釋

   協方差:Cov(X,Y)= E[ (X-EX)  *  (Y-EY) ]


*************************************************************************************************************************


第四:餘弦度量距離=相關係數?

==========================================================================

背景知識

1、餘弦

cosA = 臨邊/斜邊  = b/c。


2、餘弦第二定理【證明很簡單】


3、向量點積【降級,得到一個標量】

兩個向量 a =  [X1, X2,…, Xn]

              b = [Y1, Y2,…, Yn]

點積定義爲:a·b=X1Y1+X2Y2+……+XnYn。

點積的幾何解釋:向量a在向量b上的投影長度,乘以b的模。

4、設向量a,b的夾角θ。

a·b = |a| × |b| × cosθ 【證明

變形:cosθ =(a・b)/|a||b|

5、內積空間【又稱歐幾里得空間】

在一個有限維的向量空間,私人定製一個運算規則,如果我們定義了內積運算規則,那麼這個空間,稱爲內積空間。

內積空間比向量空間多一種運算,就會多很多數學工具。

百度百科定義:

在數學上,內積空間是增添了一個額外的結構的矢量空間。這個額外的結構叫做內積或標量積。這個增添的結構將一對矢量與一個純量連接起來,允許我們嚴格地談論矢量的“夾角”和“長度”,並進一步談論矢量的正交性。

==========================================================================


由相關係數定義,得到其主要目的是研究變量之間相關程度。

展開一下,我們也可以用“距離”,來衡量兩個變量的相關性。


假設:兩組變量a,b,將各自參數排成一排,就可以看作兩個向量a,b。

在這個n空間,也就是我們定義內積運算得到內積空間中。

1、空間由兩個向量,我們怎麼定義其距離或者是相關性?

     自然想到向量的夾角,夾角大,則距離大,夾角小,則距離小。

2、怎樣計算夾角?

     cosθ =(a・b)/|a||b|

    點積容易計算,向量的模也好計算。

3、參考相關係數公式

    

    

     夾角公式:  cosθ =(a・b)/|a||b|

     分子就是點積:X1Y1+X2Y2+……+XnYn

     分母就是向量a,b的模。

     cosθ =   E(XY)

                  /(E[X]*E[Y])

     根號不會打,分母需要根號,因爲求的是向量模。

4、計算夾角的限制條件?

     1、因爲根據協方差公式Cov(X,Y)= E[ (X-EX)  *  (Y-EY) ],需要每個參數各自減掉均值.

          而向量a,b的點積=E[XY]=X1Y1+X2Y2+……+XnYn           並沒有減掉均值,

     2、在根據相關係數公式,協方差/各自標準差,

           向量a,b的模也沒有減掉均值。

     所以,在計算cosθ,先要將向量a,b進行均值化。



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章