統計學nb。當筆者使用SPSS,或者調用很多sk-learn函數包時,常常會用並不是最難的,會選擇包,會閱讀結果,會得出統計學答案纔是最難的。
T-Value
T-value 就是組間差異與組內差異的比值。
其中SE指Standard Error。
單樣本T值
對於單樣本來說
其中m爲樣本均值,爲理論均值,s是樣本標準差,n是樣本量。
閾值和結果閱讀
如果第一組均值大於第二組均值,則t值將爲正;如果較小,則t值將爲負。
一旦T值確定,則必須在閱讀t檢驗表(見附錄)
選定0.05,自由度dF:
T-test解釋
t檢驗評估兩組的均值是否在統計學上彼此不同。每當您想比較兩組均值時,此分析都是合適的,尤其適合作爲posttest-only two-group randomized experimental design.
但上圖僅僅是一個理想分佈,實際情況中,由於結果的可變範圍不同,在相同的均值差下,可能看起來會有幾乎完全不同的效果,如下圖:
當我們查看兩組分數之間的差異時,我們必須判斷其均值相對於分數分佈或變異性的差異。T檢驗就是這樣做的。
T-Test單雙尾檢驗選擇
t -test 首先要服從正態分佈,如果不服從正態分佈,可以使用非參數檢驗
附錄:T-test表
表格來源:http://www.sthda.com/english/wiki/t-distribution-table
擴展閱讀
同方差(pooled variances)t-test
其中
異方差(separate variance)t-test
其中
配對樣本 T 檢驗(paired t-test)
如果對相同的人或事,有兩個測量值(before/after)選擇配對 T 檢驗。
要比較配對樣本的均值,首先要計算出所有配對的差值 d。
m:d 的平均值;
s:d 的標準差;
n:d 的數量。
自由度:
機器學習中使用T-Test做特徵篩選
機器學習中有三種特徵篩選方法:
- Filter approach和“任務”無關
- Wrapper approach用predictor來評估參數,和任務有關
- Embedding approach用predictor來構建一個模型,之後用模型來選擇,Lasso也屬於這裏
使用T-test做二分類問題的參數選擇如下圖:右側是比較好的特徵
T-Test的R語言實戰
https://zhuanlan.zhihu.com/p/38243421
參考文獻
https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/t-test/
http://www.sthda.com/english/wiki/t-test-formula
https://socialresearchmethods.net/kb/statistical-student-t-test/