今天用table比較兩個組的差異,數據是用兩個dataframe豎向拼接起來的。
然後用table進行檢驗:
columns = ['diff', 'label']
categorical = []
nonnormal = []
groupby = 'label'
mytable = TableOne(val_stats, columns, categorical, groupby, nonnormal, pval=True)
print(mytable)
發現兩個組裏的均值和方差都完全相同:
Grouped by label
isnull ai_diff doc_diff pval ptest
variable level
n 2569 2569
diff 0 -0.2 (1.5) -0.2 (1.5) <0.001 Two Sample T-test
原因是由於拼接起來後沒有重新reset_index(),兩個組都引用了同一個組的數據。
reset_index()後,問題解決。