這一章內容:屬性與屬性之間常見的聯繫。
理論鋪墊:
- 假設檢驗與方差檢驗;
- 相關係數:皮爾遜、斯皮爾曼;
- 迴歸:線性迴歸;
- PCA與奇異值分解;
1.假設檢驗
概念:做出一個假設,根據數據已知的分佈性質,來推斷該假設成立的概率有多大。
過程:
step1:建立原假設H0,H0的反命題爲H1,也叫備擇假設。一般情況下,原假設的分佈是符合該分佈的,而備擇假設是不符合該分佈的。
step2:選擇檢驗統計量:根據數據的均值方差等性質構造的一個轉換函數,構造的目的是便於判斷數據是否符合某種分佈。例如用某些數據減去均值,再除以標準差,這樣判斷轉換後的統計量是否符合標準正態分佈,既可以判斷數據的分佈是否是標準正太分佈的概率了。
step3:根據顯著性水平(一般爲0.05),確定拒絕域。
接受假設的失真程度的最大限度,顯示度水平和相似度的加和爲1。例如,確定了某數據的分佈有95%的可能性屬於某 一個分佈,那麼它的顯著性水平就是5%。
顯著性水平一般是人爲定的一個值,這個值定的越低,那麼說明數據分佈符合某種分佈的契合程度要求就越高,一般取 0.05,也就是說,要求數據有95%的可能與某分佈一致。
一旦確定了顯著性水平,就可以畫出與這個分佈相似度比較高的區域,這叫接受域。接受域以外的區域,就是拒絕域,如果檢驗統計量落入了拒絕域,那麼H0就可以認爲是假的,也就是可以被拒絕的假設。
step4:計算p值或者樣本統計值,作出判斷。
判斷的思路有兩種,一是計算數據的分佈區間,看這個區間是不是包含了我們要比較的特徵。二是計算p值,直接和顯著性水平進行比較。p值指的是結果更差的概率,如果p值落入了拒絕域,那麼說明這個假設是不成立的。
例子:
2.卡方檢驗
公式:
例如:
卡方值和P值對應表:
從表中可以看出,P值取0.05的話,卡方值應該不大於3.841,而上面的卡方值是129.3,明顯大於3.841,所以可以拒絕原假設,即化妝與性別沒有很大關係可以被拒絕掉。
卡方檢驗常用來檢驗兩個因素之間有沒有比較強的聯繫。
3.方差檢驗
例如:
p值小於0.05,拒絕原假設,說明三種電池的均值是有差異的。
4.相關係數
正相關,負相關,不相關
常用的相關係數有兩種:Pearson相關係數,Spearman相關係數
(1)Pearson相關係數
(2)Spearman相關係數
Spearman相關係數和具體的數值關係不大,和數值的排序有關係,所以用於相對比較的情況下比較適合。