相關性係數替代模型預測得分

原創

2020-06-15 15:45

我們知道，構建模型後（得到權重參數），預測某個樣本的得分（輸出），只需要將該樣本的按照模型的轉化公式計算即可。但是，筆者最近看到兩篇CNS的轉錄組學文獻，採用了另一種構建樣本得分的方法，使用相關性係數替代預測得分。

具體來講，這些文獻中，在求得模型的權重向量W後，對於樣本X，其預測得分用替代。而常規做法中，預測得分採用的是。上述score與predict之間是否總是一致，一致性是否健壯？

和蔡霸對此進行了探討，得出的大致邏輯如下：當自變量分量之和一定時，權重大的分量取值大、權重小的分量取值小時，預測值就會更大。感覺這種替代也是合理的。這些論文中採用的是全轉錄組學數據（全基因signature，而不是關鍵子集），而轉錄組學目前定量主要採用TPM，基本滿足“自變量分量之和一定”的前提。

這種替代是否健壯，需要一定的數學證明。

杜老哥對此提出用協方差解釋，思路通了。

首先，協方差的公式有如下寫法：

$Cov(W,X)=E[(W-E(W))(X-E(X))] =\frac{\sum _{i=1}^n(W_i-\bar{W})(X_i-\bar{X})}{n-1}$

其中： $E(WX)=\frac{\sum _{i=1}^nW_iX_i}{n-1}=\frac{W^TX}{n-1}$

且：E(W)與E(X)是恆定值（因爲X各分量的總和是確定值）。令

則： $Cov(W,X)=\frac{W^TX}{n-1}-e$

再根據相關係數與協方差的轉換公式，可得： $Cor(W,X)=\frac{Cov(W,X)}{\sigma _W\sigma _X}=(\frac{W^TX}{n-1}-e)/(\sigma _W\sigma _X)$

由於 $\sigma _W$ 是確定的，若假定 $\sigma _X$ 也確定，則與有對應關係。

若有大佬對本話題感興趣，歡迎對此進一步探討。

原論文：

Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation 中的OCLR得分構建方法，其中mRNAsi構建採用的是相關性係數預測，mDNAsi採用的是常規的線性預測。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.