R語言對混合分佈中的不可觀測與可觀測異質性因子分析

原文鏈接:http://tecdat.cn/?p=13584 


今天上午,在課程中,我們討論了利率制定中可觀察和不可觀察異質性之間的區別(從經濟角度出發)。爲了說明這一點,我們看了以下簡單示例。讓  X 代表一個人的身高。考慮以下數據集

> Davis[12,c(2,3)]=Davis[12,c(3,2)] 

 在這裏,關注變量是給定人的身高,

> X=Davis$height 

如果我們看直方圖,我們有

> hist(X,col="light green", border="white",proba=TRUE,xlab="",main="")

我們可以假設我們具有高斯分佈嗎?

在這裏,如果我們擬合高斯分佈,將其繪製出來,並添加基於核的估計量,我們將得到

> (param <- fitdistr(X,"normal")$estimate) 
> f1 <- function(x) dnorm(x,param[1],param[2]) 
> x=seq(100,210,by=.2) 
> lines(x,f1(x),lty=2,col="red") 
> lines(density(X))

 

 

如果看那條黑線,可能會想到一種混合分佈,例如

當我們有一個獲得混合分佈不可觀察的異質性因子:概率 p1,一個隨機變量   ,概率p2,一個隨機變量   。我們可以使用例如


> (param12 <- c(mix$lambda[1],mix$mu,mix$sigma)) 
[1] 0.4002202 178.4997298 165.2703616 6.3561363 5.9460023  

 如果我們繪製兩個高斯分佈的混合圖,我們得到


> lines(x,f2(x),lwd=2, col="red") lines(density(X))

不錯。實際上,我們可以嘗試使用自己的代碼最大限度地提高可能性,


> bvec <- c(0,-1,0,0)
> constrOptim(c(.5,160,180,10,10), logL, NULL, ui = Amat, ci = bvec)$par

[1]   0.5996263 165.2690084 178.4991624   5.9447675   6.3564746

在這裏,我們包括一些約束,以保證概率屬於單位間隔,並且方差參數保持正值。

進一步來說,如果我們假設基礎分佈具有相同的方差,即

在這種情況下,我們必須使用之前的代碼,並進行一些小的更改,


> (param12c= constrOptim(c(.5,160,180,10), logL, NULL, ui = Amat, ci = bvec)$par)

[1]   0.6319105 165.6142824 179.0623954   6.1072614

如果我們不能觀察到異質性因素,這就是我們可以做的。我們實際上在數據集中有一些信息。例如,我們具有人的性別。現在,如果我們查看每個性別的身高直方圖,以及基於內核的每個性別的身高密度估計量,

 

因此,看起來男性的身高和女性的身高是不同的。也許我們可以使用實際觀察到的變量來解釋樣本中的異質性。在形式上,這裏的想法是考慮具有可觀察到的異質性因素的混合分佈:性別,

現在,我們對以前稱爲類[1]和[2]的解釋是:男性和女性。在這裏,估算參數非常簡單,


sex=="F"
      mean         sd 
164.714286   5.633808 
sex=="M"
      mean         sd 
178.011364   6.404001

如果我們繪製密度,我們有

> lines(x,f4(x),lwd=3,col="blue")

 

如果再次假設相同的方差怎麼辦?即,模型變爲

然後,一個自然的想法是根據以前的計算得出方差的估計量

 


> s
[1] 6.015068

再一次,可以繪製相關的密度,

> lines(x,f5(x),lwd=3,col="blue")

現在,如果我們仔細考慮一下我們所做的事情,那僅僅是對一個因素(人的性別)的線性迴歸,

  

實際上,如果我們運行代碼來估算此線性模型,


Residuals:
     Min       1Q   Median       3Q      Max 
-16.7143  -3.7143  -0.0114   4.2857  18.9886 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 164.7143     0.5684  289.80   <2e-16 ***
sexM         13.2971     0.8569   15.52   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.015 on 198 degrees of freedom
Multiple R-squared:  0.5488,	Adjusted R-squared:  0.5465 
F-statistic: 240.8 on 1 and 198 DF,  p-value: < 2.2e-16

我們得到的均值和方差的估計與之前獲得的估計相同。因此,正如今天上午在課堂上提到的,如果您有一個不可觀察的異質性因子,我們可以使用混合模型來擬合分佈,但是如果您可以得到該因子的替代,這是可觀察的,則可以運行迴歸。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章