CDA數據分析師培訓筆記（三）20151114-20151115

原創

2020-06-07 20:48

（續）

關於平均抽樣誤差

這個概念很重要，與總體的方差成正比，與樣本數的平方根成反比。容易解釋但是推導不會。

樣本平均數的分佈服從以總體均數爲均數，平均抽樣誤差爲方差的分佈。我們將樣本均數計算Z統計量，它就服從一個正太分佈，用樣本的方差代替總體方差，樣本量已知，樣本均數已知，在一定的概率度的情況下，我們就能反推總體均數的區間估計。

關於方差分析

對於一個分類變量和一個連續變量，如果分類變量是兩分類的，我們用t檢驗，比較特殊的就是配對數據的t檢驗（能夠消除很多因素的影響），還有一種的t檢驗就是沒有分類變量，直接是連續變量與某一數值比較。

當分類變量是多分類的時候，用方差分析，統計量是組間平方和/組內平方和，我們的原假設是組間無差異，均值相等，統計量越小，P值就越大。

不管是t檢驗還是方差分析，正態性檢驗都是必須的，這個功能在SPSS中是在描述性統計-探索中，而不是在比較均值，方差分析那塊，這也能看出數據分析正態性的重要性。

滿足正態性的前提下，對方差齊性的要求倒是不太嚴格，所以一般都有方差齊性或者不齊性的結果。比較均值，假定方差齊性一般用LSD，比較好看的結果界面還是SNK發，假定方差不齊一般用T2法（老羅的T2嗎哈哈）

對於單因素的方差分析，實際上就是在兩分類數據中多了一個或者多個水平，所以在SPSS中，單因素方差分析和t檢驗在一起。

多因素的方差分析，協方差分析，因素之間的交互瞭解，但是沒有深入研究過。

關於迴歸分析

數據的分類裏面，分類數據，定序數據，和定量數據，他們能夠提供的有價值的信息越來越多。一個分類數據和一個連續性數據我們用方差分析或者t檢驗，如果是兩個定量數據，這樣的數據我們就更喜歡了。方差分析只能表示總體有無差異，差異多大。而回歸分析直接能計算兩個變量的相關程度，由一個變量去預測另一個變量。

相關係數一般分0.8 0.5 0.3 這幾個區間。一般在0.5~0.8區間就很不錯了。

我們常研究的線性相關分析，計算皮爾遜相關係數。曲線，時間序列這個都不瞭解。

對於迴歸分析裏面，異常值處理，殘差檢驗，以及迴歸分析裏面統計量計算，有點類似於方差分析的統計量計算，理解的還不透徹，還需要繼續研究。

關於自由度

不是太理解：已知樣本均值，樣本量爲n，自由度爲n-1

虛擬變量

如果迴歸分析裏面一定要加入分類變量，就用虛擬變量替代，n個分類，虛擬變量就是n-1

如果自變量連續變量，因變量是分類變量，就用logistic分析（還沒有研究過）

(完）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.