【數據分析與數據挖掘】四、多因子與複合分析(上)

這一章內容:屬性與屬性之間常見的聯繫。

理論鋪墊:

  1. 假設檢驗與方差檢驗;
  2. 相關係數:皮爾遜、斯皮爾曼;
  3. 迴歸:線性迴歸;
  4. PCA與奇異值分解;

1.假設檢驗

概念做出一個假設,根據數據已知的分佈性質,來推斷該假設成立的概率有多大。

過程

step1建立原假設H0,H0的反命題爲H1,也叫備擇假設。一般情況下,原假設的分佈是符合該分佈的,而備擇假設是不符合該分佈的。

step2:選擇檢驗統計量:根據數據的均值方差等性質構造的一個轉換函數,構造的目的是便於判斷數據是否符合某種分佈。例如用某些數據減去均值,再除以標準差,這樣判斷轉換後的統計量是否符合標準正態分佈,既可以判斷數據的分佈是否是標準正太分佈的概率了。

step3:根據顯著性水平(一般爲0.05),確定拒絕域。

接受假設的失真程度的最大限度,顯示度水平和相似度的加和爲1。例如,確定了某數據的分佈有95%的可能性屬於某 一個分佈,那麼它的顯著性水平就是5%。

顯著性水平一般是人爲定的一個值,這個值定的越低,那麼說明數據分佈符合某種分佈的契合程度要求就越高,一般取 0.05,也就是說,要求數據有95%的可能與某分佈一致。

一旦確定了顯著性水平,就可以畫出與這個分佈相似度比較高的區域,這叫接受域。接受域以外的區域,就是拒絕域,如果檢驗統計量落入了拒絕域,那麼H0就可以認爲是假的,也就是可以被拒絕的假設。

step4:計算p值或者樣本統計值,作出判斷。

判斷的思路有兩種,一是計算數據的分佈區間,看這個區間是不是包含了我們要比較的特徵。二是計算p值,直接和顯著性水平進行比較。p值指的是結果更差的概率,如果p值落入了拒絕域,那麼說明這個假設是不成立的。

例子:

2.卡方檢驗

公式:

例如:

卡方值和P值對應表:

從表中可以看出,P值取0.05的話,卡方值應該不大於3.841,而上面的卡方值是129.3,明顯大於3.841,所以可以拒絕原假設,即化妝與性別沒有很大關係可以被拒絕掉。

卡方檢驗常用來檢驗兩個因素之間有沒有比較強的聯繫。

3.方差檢驗

例如:

p值小於0.05,拒絕原假設,說明三種電池的均值是有差異的。

4.相關係數

正相關,負相關,不相關

常用的相關係數有兩種:Pearson相關係數,Spearman相關係數

(1)Pearson相關係數

(2)Spearman相關係數

Spearman相關係數和具體的數值關係不大,和數值的排序有關係,所以用於相對比較的情況下比較適合

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章