特徵篩選利器:詳解T-test(T檢驗)原理、參數分析、單\雙尾檢驗選擇

統計學nb。當筆者使用SPSS,或者調用很多sk-learn函數包時,常常會用並不是最難的,會選擇包,會閱讀結果,會得出統計學答案纔是最難的。

T-Value

T-value 就是組間差異與組內差異的比值。
t=XˉAXˉBSE(XˉAXˉB)t=\frac{\bar{X}_{A}-\bar{X}_{B}}{S E\left(\bar{X}_{A}-\bar{X}_{B}\right)}
其中SE指Standard Error。

單樣本T值

對於單樣本來說
t=mμs/nt=\frac{m-\mu}{s / \sqrt{n}}
其中m爲樣本均值,μ\mu爲理論均值,s是樣本標準差,n是樣本量。

閾值和結果閱讀

如果第一組均值大於第二組均值,則t值將爲正;如果較小,則t值將爲負。
一旦T值確定,則必須在閱讀t檢驗表(見附錄)

α\alpha選定0.05,自由度dF:
df=n1 df=n-1

T-test解釋

t檢驗評估兩組的均值是否在統計學上彼此不同。每當您想比較兩組均值時,此分析都是合適的,尤其適合作爲posttest-only two-group randomized experimental design.
在這裏插入圖片描述
但上圖僅僅是一個理想分佈,實際情況中,由於結果的可變範圍不同,在相同的均值差下,可能看起來會有幾乎完全不同的效果,如下圖:
在這裏插入圖片描述

當我們查看兩組分數之間的差異時,我們必須判斷其均值相對於分數分佈或變異性的差異。T檢驗就是這樣做的。
在這裏插入圖片描述

T-Test單雙尾檢驗選擇

t -test 首先要服從正態分佈,如果不服從正態分佈,可以使用非參數檢驗
在這裏插入圖片描述

附錄:T-test表

在這裏插入圖片描述
表格來源:http://www.sthda.com/english/wiki/t-distribution-table

擴展閱讀

同方差(pooled variances)t-test

t=mAmBS2nA+S2nBt=\frac{m_{A}-m_{B}}{\sqrt{\frac{S^{2}}{n_{A}}+\frac{S^{2}}{n_{B}}}}
其中
S2=(xmA)2+(xmB)2nA+nB2S^{2}=\frac{\sum\left(x-m_{A}\right)^{2}+\sum\left(x-m_{B}\right)^{2}}{n_{A}+n_{B}-2}

異方差(separate variance)t-test

t=mAmBsA2nA+SB2nBt=\frac{m_{A}-m_{B}}{\sqrt{\frac{s_{A}^{2}}{n_{A}}+\frac{S_{B}^{2}}{n_{B}}}}
其中
在這裏插入圖片描述

配對樣本 T 檢驗(paired t-test)

如果對相同的人或事,有兩個測量值(before/after)選擇配對 T 檢驗。

要比較配對樣本的均值,首先要計算出所有配對的差值 d。

在這裏插入圖片描述
m:d 的平均值;

s:d 的標準差;

n:d 的數量。

自由度: df=nd1df=n_{d}-1

機器學習中使用T-Test做特徵篩選

機器學習中有三種特徵篩選方法:

  • Filter approach和“任務”無關
  • Wrapper approach用predictor來評估參數,和任務有關
  • Embedding approach用predictor來構建一個模型,之後用模型來選擇,Lasso也屬於這裏

使用T-test做二分類問題的參數選擇如下圖:右側是比較好的特徵
在這裏插入圖片描述

T-Test的R語言實戰

https://zhuanlan.zhihu.com/p/38243421

參考文獻

https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/t-test/
http://www.sthda.com/english/wiki/t-test-formula
https://socialresearchmethods.net/kb/statistical-student-t-test/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章