特徵篩選利器：詳解T-test（T檢驗）原理、參數分析、單\雙尾檢驗選擇

原創

2020-06-13 07:53

統計學nb。當筆者使用SPSS，或者調用很多sk-learn函數包時，常常會用並不是最難的，會選擇包，會閱讀結果，會得出統計學答案纔是最難的。

T-Value

T-value 就是組間差異與組內差異的比值。
$t=\frac{\bar{X}_{A}-\bar{X}_{B}}{S E\left(\bar{X}_{A}-\bar{X}_{B}\right)}$
其中SE指Standard Error。

單樣本T值

對於單樣本來說
$t=\frac{m-\mu}{s / \sqrt{n}}$
其中m爲樣本均值， $\mu$ 爲理論均值，s是樣本標準差，n是樣本量。

閾值和結果閱讀

如果第一組均值大於第二組均值，則t值將爲正；如果較小，則t值將爲負。
一旦T值確定，則必須在閱讀t檢驗表（見附錄）

$\alpha$ 選定0.05，自由度dF:
$df=n-1$

T-test解釋

t檢驗評估兩組的均值是否在統計學上彼此不同。每當您想比較兩組均值時，此分析都是合適的，尤其適合作爲posttest-only two-group randomized experimental design.

但上圖僅僅是一個理想分佈，實際情況中，由於結果的可變範圍不同，在相同的均值差下，可能看起來會有幾乎完全不同的效果，如下圖：

當我們查看兩組分數之間的差異時，我們必須判斷其均值相對於分數分佈或變異性的差異。T檢驗就是這樣做的。

T-Test單雙尾檢驗選擇

t -test 首先要服從正態分佈，如果不服從正態分佈，可以使用非參數檢驗

附錄：T-test表

表格來源：http://www.sthda.com/english/wiki/t-distribution-table

擴展閱讀

同方差（pooled variances）t-test

$t=\frac{m_{A}-m_{B}}{\sqrt{\frac{S^{2}}{n_{A}}+\frac{S^{2}}{n_{B}}}}$
其中
$S^{2}=\frac{\sum\left(x-m_{A}\right)^{2}+\sum\left(x-m_{B}\right)^{2}}{n_{A}+n_{B}-2}$

異方差（separate variance）t-test

$t=\frac{m_{A}-m_{B}}{\sqrt{\frac{s_{A}^{2}}{n_{A}}+\frac{S_{B}^{2}}{n_{B}}}}$
其中

配對樣本 T 檢驗（paired t-test）

如果對相同的人或事，有兩個測量值（before/after）選擇配對 T 檢驗。

要比較配對樣本的均值，首先要計算出所有配對的差值 d。

m:d 的平均值；

s:d 的標準差；

n:d 的數量。

自由度: $df=n_{d}-1$

機器學習中使用T-Test做特徵篩選

機器學習中有三種特徵篩選方法：

Filter approach和“任務”無關
Wrapper approach用predictor來評估參數，和任務有關
Embedding approach用predictor來構建一個模型，之後用模型來選擇，Lasso也屬於這裏

使用T-test做二分類問題的參數選擇如下圖：右側是比較好的特徵

T-Test的R語言實戰

https://zhuanlan.zhihu.com/p/38243421

參考文獻

https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/t-test/
http://www.sthda.com/english/wiki/t-test-formula
https://socialresearchmethods.net/kb/statistical-student-t-test/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

特徵篩選利器：詳解T-test（T檢驗）原理、參數分析、單\雙尾檢驗選擇

T-Value

單樣本T值

閾值和結果閱讀

T-test解釋

T-Test單雙尾檢驗選擇

附錄：T-test表

擴展閱讀

同方差（pooled variances）t-test

異方差（separate variance）t-test

配對樣本 T 檢驗（paired t-test）

機器學習中使用T-Test做特徵篩選

T-Test的R語言實戰

參考文獻

【零基礎】看懂理解傅里葉變換後的頻譜圖-附例題

最簡單的Python數據集分割：將Dataframe自由分割成指定大小的test和train

Windows系統pandoc下載太慢、安裝使用方法詳解【已更新鏈接】

數學定義隨機變量、概率密度函數、分佈函數

解決idea創建maven工程Archetype not found in any catalog

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結