原创 決策曲線 Decision Curve

本文轉自:決策曲線分析法(Decision Curve Analysis,DCA) 簡介 評價一種診斷方法是否好用,一般是作ROC曲線,計算AUC。但是,ROC只是從該方法的特異性和敏感性考慮,追求的是準確。而臨牀上,準確就足夠了嗎?患者

原创 高維數據中特徵篩選方法的思考總結——單變量分析篩選法

基因組學、轉錄組學、蛋白組學及代謝組學等生信問題(高通量數據)中,面臨的第一步往往就是降維(或者說篩選特徵)。降維方法分爲兩大類:單變量分析降維法、多變量分析降維法。單變量降維常常使用FC值或者P值,多變量降維常常使用LASSO和PLS等

原创 Linux系統搭建GPU加速的PyTorch環境

當前訓練CNN最受歡迎的兩個框架是TensorFlow和 pyTorch,搭建相應的環境其實不難,博主早先在筆記本的Ubuntu上很快就搭建了pyTorch環境及手寫了ResNet 的Demo。但是最近臺式機配上比較不錯的顯卡後,再次搭建

原创 廣義線性混合模型GLMM

廣義線性混合模型GLMM(Generalized Linear Mixed Model),是廣義線性模型GLM 和線性混淆模型LMM 的擴展形式,於二十世紀九十年代被提出。GLMM因其借鑑了混合模型的思想,其在處理縱向數據(重複測量資料)

原创 馬爾可夫鏈蒙特卡羅算法 MCMC

馬爾可夫鏈蒙特卡羅算法(MCMC)是貝葉斯推斷中的明星算法,困惑筆者頗久,閱讀了劉建平大佬的博客及知乎上的一些閱讀筆記後,終於有了些自己的理解。本文基於劉建平大佬的博客進行梳理,複製粘貼較多(甚至截圖),權且當成讀書筆記。 蒙特卡羅方法

原创 Java接口與回調

1.接口的基本概念 1.1、interface是對類的一組需求的描述,但不給出需求的具體實現。 1.2、接口不是類,不能使用new來實例化一個接口,即不能構造接口的對象。但是我們其實經常可以與此命題相矛盾的代碼,實質上是匿名內部

原创 數據分析中的嚴謹問題

數據分析中,不少人存在或多或少的不嚴謹操作。本文大致列舉一些 關於Fold Change的計算 Fold Change是差異biomarker篩選的一個常用步驟,一般大家都使用兩組的均值相除進行計算。但是,對於非正態分佈,使用均值相除是否

原创 目標檢測——深度學習算法

前文簡單概述了目標檢測的傳統算法,本文將步入深度學習時代。ILSVRC 2012中AlexNet 的出現標誌着計算機視覺進入深度學習階段,目標檢測算法隨之在2014年問世了R-CNN算法框架。 各傳統算法的主要區別在於特徵提取的思路不同,

原创 R語音中的並行與分段技巧

在衆多編程語言中,R語言是典型的運行慢和耗內存。當數據表比較龐大(比如一個數據集達100G),而內存有限時(比如一臺普通電腦內存16G),使用R語言一次讀入和處理,常規做法完全不可行。即使調大虛擬內存(swap空間),使用memory.l

原创 內部驗證

嚴格的建模流程,需要將數據劃分成訓練集和測試集,測試集不參與訓練模型的參數(包括超參數)的過程。對於不需要選擇超參數的模型(如廣義線性模型或樹模型的變量已確定時),直接使用訓練集進行訓練即可得到較爲可靠的參數。但對於需要確定超參數的情況(

原创 提高非參數檢驗功效的潛在方法

對於非正態分佈的數據,當樣本量不夠大(如小於30)時,Wilcoxon 檢驗的功效較低。如何提高非參數檢驗的功效,這是個不容易的問題。Wilcoxon是一個特異度很高的檢驗方法,但小樣本時靈敏度較低。如果簡單放寬檢驗水準,將會迅速損失特異

原创 相關性係數替代模型預測得分

我們知道,構建模型後(得到權重參數),預測某個樣本的得分(輸出),只需要將該樣本的按照模型的轉化公式計算即可。但是,筆者最近看到兩篇CNS的轉錄組學文獻,採用了另一種構建樣本得分的方法,使用相關性係數替代預測得分。 具體來講,這些文獻中,

原创 基於分佈狀態的兩樣本非參數檢驗

Fisher精確檢驗(基於超幾何分佈)的基本假設可以通俗理解爲:如果當前分組方式是一種隨機現象(無意義的分組),那麼基於當前分組出現當前離散分佈的可能性有多大(當然嚴格意義上應該這麼說:比當前分佈狀態更極端的各分佈狀態的累積概率是多少 [

原创 生存模型的C-index(C指數)

概述 參考自:如何在R軟件中求一致性指數 C-index,C指數即一致性指數(concordance index),用來評價模型的預測能力。c指數是指所有病人對子中預測結果與實際結果一致的對子所佔的比例。它估計了預測結果與實際觀察到的結果

原创 似然比檢驗 LRT

似然比檢驗(likelihood ratio test, LRT)是一種檢驗參數能否反映真實約束的方法(分佈或模型的某參數  等於  是否爲真實約束)。似然比檢驗的思想是:“如果參數約束是有效的,那麼加上這樣的約束不應該引起似然函數最大值