統計學上的幾個概念

總是隔一段時間就忘,還是記下來。

均值:一組數求平均。可以是正數、負數或0

方差(差的平方求均值):各數與均值之間差的平方,求和除以元素個數(注意excel中的方差和標準差函數均分爲總體和樣本兩種,區別是除以n還是n-1)。方差一定是正數或者0。

標準差:方差開平方,取正平方根。

協方差:用於表示兩組數的相關性——A組數的各個元素和其均值的差乘以B組數的各個元素和其均值的差,求和後再除以元素個數。是兩組數計算後得到一個數。這個數爲正數表示趨向正相關,爲負數趨向於負相關。爲0是不相關。
其原理是:如果A組數的元素1大於其均值,而B組數的元素1也大於其均值,那麼相乘結果>0;同理如果都小於均值,相乘結果也>0。如果一個大於一個小於,相乘結果就<0。類似元素2,元素3…元素n都是如此。那麼如果同時大於均值或者小於均值的情況比較多,乘出來的正數就比較多,最後取和的結果也傾向於正數。如果一個大於均值一個小於均值的情況比較多,乘出來的負數就比較多,最後取和的結果也傾向於負數。

協方差矩陣:協方差只能表示兩組數據的關係,如果是在多組數據中找關係,就需要兩兩組合的去算協方差。這樣最後就組成一個協方差矩陣。所以矩陣對角線上就是各組數據的方差(自己與自己的協方差就是這組數的方差);而且協方差矩陣一定是依對角線對稱(因爲A與B的協方差等於B與A的協方差)。
協方差矩陣算法除了上面說的兩兩計算協方差後填入數據。還可以這樣計算:每組數的各個元素均減去本組的均值(即使每組數的均值都爲0),得到一箇中心化的新矩陣,用這個矩陣乘以它的轉置,再除以元素個數。

相關係數:因爲協方差是一個數,而且可大可小。但是因爲和元素本身的數值大小有關係,所以並不能直觀體現相關的程度。所以在協方差基礎上再除以兩組數各自標準差的乘積,得到的就是皮爾遜相關係數。相關係數的取值範圍在-1到1之間。這樣觀察和比較相關性就直觀多了。

相關係數矩陣:同樣的,相關係數矩陣也是兩兩計算而來。矩陣對角線上總是1(自己與自己完全正相關)

excel2010版之後提供數據分析功能,啓用此功能在選項-加載項-轉到-勾選。數據分析裏包含了相關計算,結果是等同的。

t檢驗:待續

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章