CDA數據分析師培訓筆記(三)20151114-20151115

(續)

關於平均抽樣誤差

       這個概念很重要,與總體的方差成正比,與樣本數的平方根成反比。容易解釋但是推導不會。

       樣本平均數的分佈服從 以總體均數爲均數,平均抽樣誤差爲方差的分佈。我們將樣本均數計算Z統計量,它就服從一個正太分佈,用樣本的方差代替總體方差,樣本量已知,樣本均數已知,在一定的概率度的情況下,我們就能反推總體均數的區間估計。

關於方差分析

       對於一個分類變量和一個連續變量,如果分類變量是兩分類的,我們用t檢驗,比較特殊的就是配對數據的t檢驗(能夠消除很多因素的影響),還有一種的t檢驗就是沒有分類變量,直接是連續變量與某一數值比較。

       當分類變量是多分類的時候,用方差分析,統計量是 組間平方和/組內平方和,我們的原假設是組間無差異,均值相等,統計量越小,P值就越大。

       不管是t檢驗還是方差分析,正態性檢驗都是必須的,這個功能在SPSS中是在描述性統計-探索中,而不是在比較均值,方差分析那塊,這也能看出數據分析正態性的重要性。

      滿足正態性的前提下,對方差齊性的要求倒是不太嚴格  ,所以一般都有方差齊性或者不齊性的結果。比較均值,假定方差齊性一般用LSD,比較好看的結果界面還是SNK發,假定方差不齊一般用T2法(老羅的T2嗎 哈哈)

      對於單因素的方差分析,實際上就是在兩分類數據中多了一個或者多個水平,所以在SPSS中,單因素方差分析和t檢驗在一起。

      多因素的方差分析,協方差分析,因素之間的交互瞭解,但是沒有深入研究過。

關於迴歸分析

      數據的分類裏面,分類數據,定序數據,和定量數據,他們能夠提供的有價值的信息越來越多。一個分類數據和一個連續性數據我們用方差分析或者t檢驗,如果是兩個定量數據,這樣的數據我們就更喜歡了。方差分析只能表示總體有無差異,差異多大。而回歸分析直接能計算兩個變量的相關程度,由一個變量去預測另一個變量。

       相關係數一般分0.8 0.5 0.3 這幾個區間。一般在0.5~0.8區間就很不錯了。

      我們常研究的線性相關分析,計算皮爾遜相關係數。曲線,時間序列這個都不瞭解。

      對於迴歸分析裏面,異常值處理,殘差檢驗,以及迴歸分析裏面統計量計算,有點類似於方差分析的統計量計算,理解的還不透徹,還需要繼續研究。

      關於自由度

      不是太理解:已知樣本均值,樣本量爲n,自由度爲n-1

      虛擬變量

      如果迴歸分析裏面一定要加入分類變量,就用虛擬變量替代,n個分類,虛擬變量就是n-1

      如果自變量連續變量,因變量是分類變量,就用logistic分析(還沒有研究過)

     (完)

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章