相關性係數替代模型預測得分

我們知道,構建模型後(得到權重參數),預測某個樣本的得分(輸出),只需要將該樣本的按照模型的轉化公式計算即可。但是,筆者最近看到兩篇CNS的轉錄組學文獻,採用了另一種構建樣本得分的方法,使用相關性係數替代預測得分。

具體來講,這些文獻中,在求得模型的權重向量W後,對於樣本X,其預測得分用 score=Cor(W,X) 替代。而常規做法中,預測得分採用的是 predict=W^TX 。上述score與predict之間是否總是一致,一致性是否健壯?

和蔡霸對此進行了探討,得出的大致邏輯如下:當自變量分量之和一定時,權重大的分量取值大、權重小的分量取值小時,預測值就會更大。感覺這種替代也是合理的。這些論文中採用的是全轉錄組學數據(全基因signature,而不是關鍵子集),而轉錄組學目前定量主要採用TPM,基本滿足“自變量分量之和一定”的前提。

這種替代是否健壯,需要一定的數學證明。

杜老哥對此提出用協方差解釋,思路通了。

首先,協方差的公式有如下寫法:

      Cov(W,X)=E[(W-E(W))(X-E(X))] =\frac{\sum _{i=1}^n(W_i-\bar{W})(X_i-\bar{X})}{n-1}

      Cov(W,X)=E[(W-E(W))(X-E(X))] =E(WX)-E(W)E(X)

其中:E(WX)=\frac{\sum _{i=1}^nW_iX_i}{n-1}=\frac{W^TX}{n-1}

且:E(W)與E(X)是恆定值(因爲X各分量的總和是確定值)。令 e=E(W)E(X)

則:Cov(W,X)=\frac{W^TX}{n-1}-e

再根據相關係數與協方差的轉換公式,可得:Cor(W,X)=\frac{Cov(W,X)}{\sigma _W\sigma _X}=(\frac{W^TX}{n-1}-e)/(\sigma _W\sigma _X)

由於 \sigma _W是確定的,若假定\sigma _X 也確定,則 Cor(W,X) 與 W^TX 有對應關係。

 

若有大佬對本話題感興趣,歡迎對此進一步探討。

 

原論文:

Signatures of T cell dysfunction and exclusion predict cancer immunotherapy response 中的 T cell dysfunction score構建方法。

Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation 中的OCLR得分構建方法,其中mRNAsi構建採用的是相關性係數預測,mDNAsi採用的是常規的線性預測。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章