廣義線性混合模型GLMM(Generalized Linear Mixed Model),是廣義線性模型GLM 和線性混淆模型LMM 的擴展形式,於二十世紀九十年代被提出。GLMM因其借鑑了混合模型的思想,其在處理縱向數據(重複測量資料)時,被認爲具有獨特的優勢。GLMM不僅擅長處理重複測量資料,還可以用於任何層次結構的數據(因爲本質上又是多水平模型)。
提到GLMM,有必要先介紹幾個容易混淆的概念:GLM、LMM、MLM、GMM 和GEE。
相關模型簡介
廣義線性模型 GLM
廣義線性模型GLM,是大家經常接觸的概念了,比如經典的Logistic模型。GLM是普通線性模型的擴展形式,由於普通線性迴歸的因變量必須服從正態分佈,而實際問題中經常會遇到分類問題或計數問題的建模,GLM採用連接函數(Link Function),將因變量的分佈進行了擴展,使得因變量只要服從指數分佈族即可(如正態分佈,二項分佈,泊松分佈,多項分佈等)。
GLM 可以分解爲 Random Component、System Component 和 Link Function 三個部分。Random Component 爲殘差部分,取決於因變量的分佈;System Component 爲預測部分,又稱 linear predictor,是擬合的關鍵;Link Function 爲連接變化函數,用於將指數分佈族轉化成正態分佈,或者說,對預測結果進行非線性映射(建立 linear predictor與 label 之間的變換關係),是LM成長爲GLM的關鍵環節。
需要強調的是,link function 是從 label 映射到 linear predictor的過程,link function的反函數稱爲響應函數 response function。響應函數 把 linear predictor 直接映射到了預測目標 label。較常見的link function如 logit函數(又稱log-odds);較常用的響應函數如 logistic(又稱sigmoid,是二分類中的相應函數)和 softmax(是sigmoid的擴展形式,用於多分類問題),這兩個都是 logit 的反函數。
以 Logistic爲例,如下(本部分摘自:GLM(廣義線性模型) 與 LR(邏輯迴歸) 詳解):
最後囉嗦一句,因變量爲Bernoulli Distribution也就是對二分類問題建模,因變量爲Binomial Distribution也就是對多分類問題建模,因變量爲Poisson Distribution也就是對計數問題建模(注意區分計數問題和多分類問題)。
本文講得比較簡略,有兩篇博客對GLM總結得比較棒,給出鏈接如下,值得一讀:
線性混合模型 LMM
本部分參考自:《高級醫學統計學》和 Wiki: Mixed_model
線性混合模型LMM,又稱混合線性模型MLM、混合模型MM、多水平模型MLM、隨機係數模型RCM、等級線性模型HLM 等。首先看一下 Wiki上對混合模型MM的介紹:A mixed model (or more precisely mixed error-component model) is a statistical model containing both fixed effects and random effects. (注意:fixed在這裏譯爲固定,不同於mixed混合)
混合模型擅長於處理縱向數據(重複測量數據)和有缺失的數據,並且往往優於ANOVA等方法。
在混合模型中,需要區分兩個概念:random effects與 random errors。
以矩陣定義混合模型,可以寫成:
是觀測值的向量,服從多元正態分佈,且平均值可以表示爲
是固定因子的效應值(與X對應的固定效應參數向量)
是隨機因子的效應值,服從多元正態分佈,且平均值爲 ,它的方差爲
是殘差的向量矩陣,它的平均值爲 ,它的方差爲
爲固定效應自變量的設計矩陣(可包括連續性變量和分類變量,甚至可包含交互項或二次項等), 爲隨機效應變量構造的設計矩陣。
[ 注意:切勿將固定效應狹義理解爲主要變量,而應該是所有可能的解釋變量(如分組變量和時間變量),包括這些變量之間的交互項。而隨機效應則是假定的隨機效應部分(這部分的意義應當從多水平模型的角度來理解了) ]
該模型爲固定效應 和隨機效應 的混合,且固定效應和隨機效應均與響應變量爲線性關係,因此稱爲線性混合模型。
注意:當滿足球形檢驗時,重複測量資料的線性混合效應模型可退化爲一般線性模型。
混合模型的假定爲 ,,其中 ,即兩者的協方差爲0(二者互相獨立)。可以給出Henderson's "mixed model equations" (MME):
The solutions to the MME, and are best linear unbiased estimates (BLUE) and predictors (BLUP) for and (此處的指的就是,有的版本習慣使用 來替代 字符), respectively. 擬合混合模型還可以使用 EM 算法。
工具包:R (nlme包中的lme方法,或 lme4 包中的lmer方法), Python (statsmodels包)。
多水平模型 MLM
本部分參考自:《高級醫學統計學》
多水平模型其實和線性混合模型LMM是等價的,只是理解的角度不同而已。MLM是從模型組建的多個水平來理解,關注構建過程;LMM則僅關注模型構建的結果(固定效應部分+隨機效應部分)。多水平模型可以分層表述,然後整合成一個公式(即等價於LMM的公式)。下面以兩水平模型爲例,進行解讀。
一個包含“2個水平1的解釋變量(x和z)和1個水平2的解釋變量(w)”的兩水平模型可以表述爲:
其中, (N是總樣本量), (J是水平2的解釋變量的w的取值個數,假定w爲分類變量)。則 表示在變量w的第 j 種取值的情況中的第 i 個個體的結局測量值。第1水平方程(第1個等式)中,截距 帶有下標 j,表示其值隨 w 的取值變化而變化;係數 帶有下標 j,表示變量 對 的效應隨 w 的取值變化而變化;而係數 不帶有下標 j,表示變量 對 的效應不隨 w 的取值變化而變化。在兩個第2水平方程(第2、3個等式)中,第1水平的迴歸係數變成了因變量。關於其他參數如e和u的規則,此處跳過(感興趣的可查閱統計書《高級醫學統計學》)。
從概念上來講,該模型的建立是從頂向下的,先進行第1水平的參數計算(通過枚舉 j 來獲得 j 組迴歸係數和);然後使用估計的迴歸係數進行第2水平的參數計算,生成多個第2水平的方程。這種計算步驟是傳統的計算方法,現在的計算其實是同步進行的。
如果將兩個第2水平的方程代入到第1水平的方程中,可以得到:
這是一個組合模型,該式右邊分爲兩部分,第一個括號部分是各個解釋變量及其交互項產生的效應,第二個括號部分是複合殘差結構。第一部分便可對應爲LMM中提到的固定效應部分,第二部分可對應爲LMM中提到的隨機效應部分(包括純粹殘差項)。
更一般地,兩水平模型可表述爲:
將Q個第2水平的方程代入到第1水平的方程中,可以得到:
該組合模型由兩部分組成:固定效應部分(第一個括號中)和隨機效應部分(第二個括號中)。
MLM的參數估計十分複雜,模型構建的步驟也比較繁瑣,此處都不進行講解。
高斯混合模型 GMM
高斯混合模型GMM(Gaussian Mixed Model)指的是多個高斯分佈函數的線性組合,理論上GMM可以擬合出任意類型的分佈,通常用於解決同一集合下的數據包含多個不同的分佈的情況(或者是同一類分佈但參數不一樣,或者是不同類型的分佈,比如正態分佈和伯努利分佈)。
設有隨機變量X,則混合高斯模型可以用下式表示:
稱 爲混合模型中的第k 個分量(component)。比如有兩個聚類,可以用兩個二維高斯分佈來表示,那麼分量數K=2 是混合係數(mixture coefficient),且滿足:
實際上,可以認爲就是每個分量的權重。
GMM常用於聚類。如果要從 GMM 的分佈中隨機地取一個點的話,實際上可以分爲兩步:首先隨機地在這 K 個 Component 之中選一個,每個 Component 被選中的概率實際上就是它的係數,選中 Component 之後,再單獨地考慮從這個 Component 的分佈中選取一個點就可以了──這裏已經回到了普通的 Gaussian 分佈,轉化爲已知的問題。
可以用EM算法估計GMM參數。
此處介紹較爲簡略,有一篇博客講得比較好,值得參考:高斯混合模型(GMM)及其EM算法的理解
另外,還有個概念叫廣義矩方法,也簡稱GMM,其與GEE密切相關,可參考:廣義矩方法(GMM)和廣義估計方程(GEE)到底有什麼區別
廣義估計方程 GEE
廣義估計方程(generalized estimating equation, GEE)用於估計廣義線性模型的參數(其中線性模型的結果之間可能存在未知的相關性)。於1986年由Liang和Zeger首次提出,是在廣義線性模型和重複測量數據中,運用準似然估計方法估計參數的一種用於分析相關性數據的迴歸模型。
詳細介紹請參考這篇博客:廣義估計方程GEE
廣義線性混合模型 GLMM
廣義線性混合模型GLMM,可以看做是線性混合模型LMM的擴展形式,使得因變量不再要求滿足正態分佈;也可以看作是GLM的擴展形式,使得可以同時包含固定效應和隨機效應。
回顧一下,LMM模型的一般形式爲:
是N*1的向量,表示觀測值;X是N*p的矩陣,表示固定效應自變量; 是p*1的向量,表示固定效應參數向量;Z是N*q的矩陣,表示隨機效應變量; 是q*1的向量( 在某些版本中也寫成),表示隨機因子的效應值; 是N*1的向量,表示殘差(隨機誤差)。
GLMM在此基礎上做了一些改動。令 linear predictor, , 表示固定效應和隨機效應的組合(隨機誤差不包含在內),即:
令g(⋅)表示link function,用來連接 linear predictor 和 label,h(⋅)爲g(⋅)的反函數,即response function。則有:
, 因此:
此處的 link function 和 response function 的示例,請直接參考GLM中的介紹(但此處會額外接觸到幾個概念:帶隨機效應的Logistic迴歸中的 probability density function 或簡稱PDF,和帶隨機效應的Poisson迴歸中的probability mass function 或簡稱PMF)。結果的解讀,和GLM中的解讀類似,細微的差別僅在於隨機效應部分的解讀。
借鑑知乎上的一個理解:
舉個例子,我們認爲療效可能與服藥時間相關,但是這個相關並不是簡簡單單的療效隨着服藥時間的變化而改變。更可能的是療效的隨機波動的程度與服藥時間有關。比如說,在早上10:00的時候,所有人基本上都處於半飽狀態,此時吃藥,相同劑量藥物效果都差不多。但在中午的時候,有的人還沒喫飯, 有的人喫過飯了,有的人喝了酒,結果酒精和藥物起了反應,有的人喝了醋,醋又和藥物起了另一種反應。顯然,中午吃藥會導致藥物療效的隨機誤差非常大。這種療效的隨機誤差(而非療效本身)隨着時間的變化而變化,並呈一定分佈的情況,必須用廣義線性混合模型了。對於固定效應來說,參數的含義是,自變量每變化一個單位,應變量平均變化多少。而對於隨機效應而言,參數是服從正態分佈的一個隨機變量,也就是說對於兩個不同的自變量的值,對應變量的影響不一定是相同的。
一篇文獻以一個案例對以上幾種模型進行了比較,值得一讀:GEE、GLMM和MLM分析衛生重複測量資料的效果比較
參考資料
萬崇華等. 高級醫學統計學. 科學出版社.
Wiki: Generalized_linear_model
Wiki: Generalized_linear_mixed_model
Introduction to generalized linear mixed models
周婷,蘭藍,邱建青,杜春霖,李曉松,張韜.GEE、GLMM和MLM分析衛生重複測量資料的效果比較[J].現代預防醫學,2017,44(16):2881-2885+2899