R Generalised Linear Model (GLM) --2-- 指數家族 和 GLM定義

指數家族

爲什麼要說指數家族?

回顧likelihood,它給出了一種獲取模型參數點估計的方法(MLE) ,模型是一堆PDF/PMF的joint, 而指數家族,就是一些經典常見的 PDF/PMF 。

簡單線性模型假設數據和響應變量之間是正態分佈的關係,這個正態分佈 就是 指數家族的一員。 GLM 在lm的基礎上進行擴展, 不再要求 “數據和響應變量之間是正態分佈” 的關係, 而是要求 “數據和響應變量之間的關係是指數家族中的某一種” 即可。

指數家族的公共形式

指數家族提供了一種公共形式,只要某種概率分佈 屬於 指數家族 ,那麼它就可以被寫成這種形式。

它看起來非常的數學,但它是很有必要的,它提供了一個公共形式,也就是說它使得 glm在計算機程序裏函數化變得統一可行。

我個人認爲了解即可,沒必要記下指數家族公共形式,以及怎麼將一些概率分佈變形成 指數家族公共形式,除非你要參加相關閉卷考試,不然需要的時候查查資料推導一下即可.....

 常見指數家族成員

接下來我會描述幾個常見的 指數家族成員,以及它們是怎麼變形成指數家族公共形式的。

理解和記憶 幾個常見的指數家族成員 是很有必要的,因爲這涉及到我們數據分析過程中模型參數的選擇,調優等,這無疑是一個比較高手工經驗要求的過程。

1 Gaussian(normal)高斯/正態分佈

 

mean = μ,決定了分佈的位置;variance = δ^2,尺度參數, 決定了分佈的幅度。

2 Binomial 二項分佈 , (e.g. Logistic regression)

N次獨立重複實驗發生k次的概率 , mean = np   ,var = n*p*(1-p)

下面這個公式 揭示了 二項分佈是互補的  

3 Poisson, 泊松分佈

 

泊松分佈適合於描述單位時間內隨機事件發生的次數 (positive count data)的概率分佈。 mean = variance = λ

4 Exponential  指數分佈

指數分佈是一種連續概率分佈。指數分佈可以用來表示獨立隨機事件發生的時間間隔,比如旅客進入機場的時間間隔、打進客服中心電話的時間間隔、中文維基百科新條目出現的時間間隔等等。指數函數的一個重要特徵是無記憶性Memoryless Property 。mean = 1/λ   variance = 1/λ^2

5  Gamma

Y~Gamma(α , β)    

 

 

mean = α/ λ variance = α/ λ^2

將它們變形成指數家族公共形式 (瞭解即可):

GLM定義

定義

先給出標準定義

我的理解

GLM是 lm 的擴展,參考 lm 4 大數據限制要求 :

  1. Linearity: The relationship between X and the mean of Y is linear. 
  2. Homoscedasticity: The variance of residual is the same for any value of X. 
  3. Independence: Observations are independent of each other. 
  4. Normality: For any fixed value of X, Y is normally distributed. 

GLM 仍然要求 限制3,independent random sample, 這是 likelihood 理論的基礎假設;

不再要求限制4 ,因爲我們不再強求 預測變量和響應變量是正態分佈的關係,而是隻要滿足指數家族即可;

不再要求限制2,因爲不再要求正態分佈,正態分佈的恆定方差自然也不再要求;

不再要求限制1,因爲我們引入了 link function 連接函數 的概念。

GLM即: 響應變量遵循某種指數家族定義的概率分佈,這個概率分佈的參數,是由預測變量的線性形式,再套上連接函數組成的。

參考我們介紹likelihood 時引入的 魚的例子 ,它的GLM模型如下圖 : 魚的逃脫數量(響應變量) 遵循二項分佈,二項分佈的參數,即逃脫率(πi),是由 魚的長度 (預測變量)的線性形式,再加上 link function 轉換 形成的  。

這個GLM模型 有兩個未知參數,即 beta0 和 beta 1.  可以用MLE 求出。

link function 

“響應變量遵循某種指數家族定義的概率分佈”,這個我們已經充分解釋了。

“預測變量的線性形式” ,其存在的目的也不用多說,

“再套上連接函數” , 問題來了,我們爲什麼要套上這個 連接函數呢? 以及,連接函數是什麼?

連接函數是什麼?

連接函數有很多種,上面 魚的例子 ,

二項分佈,(它也有被叫做 logistic regression) 中我們使用的是 logit ,它能把負無窮到正無窮的數轉換到 [0,1]的區間   ,logit  是 二項分佈的 canonical link (標準/默認連接函數)

正態分佈的  canonical link 是  identity , 我們其實沒什麼特別的限制,所以直接是:

泊松分佈的 canonical link 是  log ,  因爲我們的理想的參數是 λ >0(根據泊松定義) ,如果用 identity 可能是負值

 

其他的還有一些,我就不介紹了。

 

爲什麼要套上這個 連接函數?

1 我們希望模型 make sense 。

參考魚的例子,我們會發現  二項分佈的參數,即逃脫率(πi)理應是個正數,更具體點說它應該是個 [0,1]之間的小數,代表概率,如果我們直接使用 :,它的結果區間 是遠大於 我們希望它應該在的數據區間的,於是我們加入了 logit 連接函數進行轉換,這樣它的結果就會更如我們所願地 落在 我們希望它應該在的數據區間 。 正態。泊松等也是同理。

2 增加 flexibility 。

emm ,增加 flexibility 當然可以通過 1增加 預測變量的高次冪項,2 預測變量s之間的交互等 來實現。

link function 也可以達到這個效果。

canonical link function  標準/默認連接函數 表

一些概率分佈的 標準  連接函數 ,其實還蠻好記的,都是有道理的。

  • 正態分佈是 indetity ,回想線性模型,方差不談,均值 可正 可負  。線性模型其實是 GLM 的 一個例子(a Normal distribution with identity link GLM)
  • gamma 是 inverse ,  我暫時不知道爲啥
  • Binomial 是 log,因爲是概率,所以要把 區間 負無窮,正無窮 用 log  縮放到  0,1;
  • possion 是 log ,是因爲要把 它適用於 count positive data,速度參數 λ 理應是正數

​​​​​​​

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章