【數據分析與數據挖掘】四、多因子與複合分析（上）

原創

ZOU JM

2020-06-11 05:23

這一章內容：屬性與屬性之間常見的聯繫。

理論鋪墊：

假設檢驗與方差檢驗；
相關係數：皮爾遜、斯皮爾曼；
迴歸：線性迴歸；
PCA與奇異值分解；

1.假設檢驗

概念：做出一個假設，根據數據已知的分佈性質，來推斷該假設成立的概率有多大。

過程：

step1：建立原假設H0，H0的反命題爲H1，也叫備擇假設。一般情況下，原假設的分佈是符合該分佈的，而備擇假設是不符合該分佈的。

step2：選擇檢驗統計量：根據數據的均值方差等性質構造的一個轉換函數，構造的目的是便於判斷數據是否符合某種分佈。例如用某些數據減去均值，再除以標準差，這樣判斷轉換後的統計量是否符合標準正態分佈，既可以判斷數據的分佈是否是標準正太分佈的概率了。

step3：根據顯著性水平（一般爲0.05），確定拒絕域。

接受假設的失真程度的最大限度，顯示度水平和相似度的加和爲1。例如，確定了某數據的分佈有95%的可能性屬於某一個分佈，那麼它的顯著性水平就是5%。

顯著性水平一般是人爲定的一個值，這個值定的越低，那麼說明數據分佈符合某種分佈的契合程度要求就越高，一般取 0.05，也就是說，要求數據有95%的可能與某分佈一致。

一旦確定了顯著性水平，就可以畫出與這個分佈相似度比較高的區域，這叫接受域。接受域以外的區域，就是拒絕域，如果檢驗統計量落入了拒絕域，那麼H0就可以認爲是假的，也就是可以被拒絕的假設。

step4：計算p值或者樣本統計值，作出判斷。

判斷的思路有兩種，一是計算數據的分佈區間，看這個區間是不是包含了我們要比較的特徵。二是計算p值，直接和顯著性水平進行比較。p值指的是結果更差的概率，如果p值落入了拒絕域，那麼說明這個假設是不成立的。

例子：

2.卡方檢驗

公式：

例如：

卡方值和P值對應表：

從表中可以看出，P值取0.05的話，卡方值應該不大於3.841，而上面的卡方值是129.3，明顯大於3.841，所以可以拒絕原假設，即化妝與性別沒有很大關係可以被拒絕掉。

卡方檢驗常用來檢驗兩個因素之間有沒有比較強的聯繫。

3.方差檢驗

例如：

p值小於0.05，拒絕原假設，說明三種電池的均值是有差異的。

4.相關係數

正相關，負相關，不相關

常用的相關係數有兩種：Pearson相關係數，Spearman相關係數

（1）Pearson相關係數

（2）Spearman相關係數

Spearman相關係數和具體的數值關係不大，和數值的排序有關係，所以用於相對比較的情況下比較適合。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【數據分析與數據挖掘】四、多因子與複合分析（上）

1.假設檢驗

2.卡方檢驗

3.方差檢驗

4.相關係數

（1）Pearson相關係數

（2）Spearman相關係數

【數據分析與數據挖掘】三、單因子探索分析與可視化（上）

【Python語法】X[:,0]和X[:,1] 什麼意思？

【數據分析與數據挖掘】四、多因子與複合分析（上）

【pycharm】1.格式化代碼

【數學】1.分佈函數與概率密度函數

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結