Restricted cubic splines

本文主要譯自:Restricted cubic splines, 翻譯加上自己的理解,整理如下。

在統計學裏,splines 技術用來對變量進行轉換。有時候我們會將連續性變量轉化爲分類變量(啞變量化),因爲該連續性變量與結局變量之間的線性關係比較差。比如建立疾病預後模型時,年齡這個變量通常會被通過選取一個合適的界值轉化爲分類變量。然而,很多大佬並不推薦使用分類變量。生統大佬 Frank Harrell 教授在 Regression Modeling Strategies 一書中就有專門一個小標題是 Avoiding Categorization,並指出推薦使用splines 技巧。很多大佬都認爲 categorizing (which is the dummy variable method) isn’t a good method. 轉爲分類變量的這種方法主要有2個缺陷:第一是會壓縮變量的效應(損失了大量方差信息),第二是會出現跳躍(界點附近的跳躍會使模型擬合變差)。Restricted cubic splines (RCS) 可以很好地解決這些問題,但是RCS有個最大的缺陷就是,生物學解釋性較差。

RCS有個問題:選擇多少個knots(節點)以及選擇哪些位置作爲 knots。Frank Harrell 教授的推薦如下:

N<100 時,選擇4個knots,分別選定在:5%, 35%, 65% 和 95% 這4個百分位點處。

N≥100 時,選擇5個knots,分別選定在:5%, 27.5%, 50%, 72.5% 和 95% 這5個百分位點處。

 

啞變量化(直接轉成分類變量)的效果:

      

解決“效應壓縮”問題(恢復方差),效果:

      

解決“跳躍”問題(界點前後保持連續),即採用 restricted linear spline 變換,效果:

      

用曲線技術平滑化(多項式平滑),效果:

      

 

參考資料

Restricted cubic splines

Frank Harrell. Regression Modeling Strategies. Springer

Restricted Cubic Spline Regression: A Brief Introduction

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章