原创 目標檢測——傳統算法

目標檢測是計算機視覺中的重要任務之一。本系列博客將總結目標檢測的各類算法,包括傳統方法、基於CNN的算法(One stage、Two stage)。本文主要對傳統方法進行概述,大部分思想源自網上的博客和論文。 個人觀點,廣義的目標檢測不僅

原创 BWT算法原理解讀

測序數據alignment有一些不錯的算法,其中Burrows–Wheeler transform算法(簡稱BWT)是非常高效的一種。本文簡單總結下BWT算法思路和原理。 BWT的計算與還原 BWT計算及還原步驟此處不贅述,大致如下圖(圖

原创 辯證看待傾向性評分法

傾向性評分匹配法(Propensity Score Matching,PSM)是臨牀觀察性研究中經常使用的一種控制混雜偏移的技巧。其出現的背景是:需要控制的混雜變量很多,採用分層法控制偏移會導致樣本量嚴重縮水,因而採用一種替代的可以近似控

原创 共線性那些事兒

我們經常聽說,建模時應當儘量避免共線性(collinearity),共線性會導致參數估計不穩定、模型不可靠等等。那麼共線性究竟有多可怕?共線性具體會帶來什麼問題?共線性得到的模型是否真的不行?筆者通過自己的一些思考,結合模擬數據的測試,對

原创 Restricted cubic splines

本文主要譯自:Restricted cubic splines, 翻譯加上自己的理解,整理如下。 在統計學裏,splines 技術用來對變量進行轉換。有時候我們會將連續性變量轉化爲分類變量(啞變量化),因爲該連續性變量與結局變量之間的線性

原创 固定效應模型與隨機效應模型

常見的數據形式有時間序列數據( Time series data ),截面數據( Cross-sectional data )和面板數據( Panel data )。 從維度來看,時間序列數據和截面數據均爲一維。面板數據可以看做爲時間序列

原创 高維數據中特徵篩選方法的思考總結——多變量分析篩選法

前言:之前的文章(高維數據中特徵篩選方法的思考總結——單變量分析篩選法)中,對單變量分析篩選變量進行了初步考量,本文將進一步總結多變量分析篩選法。由於本文多處摘錄網上的博客,只是進行了歸納整理,因此筆者將本文定性爲轉載類。 多變量分析方法

原创 XGBoost

本文借鑑自多篇博客,非原創。 XGBoost是機器學習領域最近幾年比較火熱的一種十分強大的集成學習方法(系統),全稱爲eXtreme Gradient Boosting,由大牛陳天奇博士開發(陳天奇,交大ACM班畢業,華盛頓大學計算機博士

原创 GBDT

在網上看到兩篇不錯的講解GBDT的文章,決定轉載,但已無法追溯原創作者(第一篇目前最早追溯到2012年CSDN上的一篇轉載博客:GBDT(MART) 迭代決策樹入門教程 | 簡介,第二篇目前最早追溯到2017年的知乎專欄上一篇文章:Lea

原创 偏最小二乘法 Partial Least Squares

本文前部分摘自:偏最小二乘法迴歸(Partial Least Squares Regression),後半部分原創。 諸如基因組學、轉錄組學、蛋白組學及代謝組學等高通量數據分析,由於自變量數目大於病例數(未知數大於方程個數),無法直接使用

原创 生存模型的calibration需要注意的一個問題

建立一個模型後,我們常常會評價模型的區分度(discrimination)和校準度(calibration)。生存模型中,我們經常會看到使用calibration圖來呈現模型的校準度。筆者近期查閱了網上許多繪製calibration圖的R

原创 非靶向代謝組學數據分析方法總結

生物信息學早已不再侷限於基因組學領域了,後基因組學越來越受到關注,並且這幾年多組學的也研究越來越多。其中,代謝組學是相對比較年輕的一門學科,“代謝組”(metabolome)的概念於1998第一次被提出。基因組學和轉錄組學是生物信息的上游

原创 使用U-Net 進行圖像分割

最近做病理AI的細胞計數問題,需要對圖像中的各個細胞進行分類,若採用普通的CNN+普通圖像分割,估計實現效果不佳。爲了解決這個問題,大致有兩種方案:目標檢測 和 圖像分割。目標檢測的算法以Faster R-CNN、RetinaNet、YO

原创 Global Average Pooling

CNN的變種有很多,除了CNN進化史上經典的那幾種Net,還有一些網絡根據實際問題的不同需求,對其中某些Layer進行修改。 本文的問題源於一篇關於肺部CT的CNN的文章(Shuo Wang, et al. Predicting EGFR

原创 Linux系統搭建GPU加速的pyTorch環境

當前訓練CNN最受歡迎的兩個框架是TensorFlow和 pyTorch,搭建相應的環境其實不難,博主早先在筆記本的Ubuntu上很快就搭建了pyTorch環境及手寫了ResNet 的Demo。但是最近臺式機配上比較不錯的顯卡後,再次搭建