我們知道,構建模型後(得到權重參數),預測某個樣本的得分(輸出),只需要將該樣本的按照模型的轉化公式計算即可。但是,筆者最近看到兩篇CNS的轉錄組學文獻,採用了另一種構建樣本得分的方法,使用相關性係數替代預測得分。
具體來講,這些文獻中,在求得模型的權重向量W後,對於樣本X,其預測得分用 替代。而常規做法中,預測得分採用的是 。上述score與predict之間是否總是一致,一致性是否健壯?
和蔡霸對此進行了探討,得出的大致邏輯如下:當自變量分量之和一定時,權重大的分量取值大、權重小的分量取值小時,預測值就會更大。感覺這種替代也是合理的。這些論文中採用的是全轉錄組學數據(全基因signature,而不是關鍵子集),而轉錄組學目前定量主要採用TPM,基本滿足“自變量分量之和一定”的前提。
這種替代是否健壯,需要一定的數學證明。
杜老哥對此提出用協方差解釋,思路通了。
首先,協方差的公式有如下寫法:
其中:
且:E(W)與E(X)是恆定值(因爲X各分量的總和是確定值)。令
則:
再根據相關係數與協方差的轉換公式,可得:
由於 是確定的,若假定 也確定,則 與 有對應關係。
若有大佬對本話題感興趣,歡迎對此進一步探討。
原論文:
Signatures of T cell dysfunction and exclusion predict cancer immunotherapy response 中的 T cell dysfunction score構建方法。
Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation 中的OCLR得分構建方法,其中mRNAsi構建採用的是相關性係數預測,mDNAsi採用的是常規的線性預測。