原文鏈接:http://tecdat.cn/?p=13584
今天上午,在課程中,我們討論了利率制定中可觀察和不可觀察異質性之間的區別(從經濟角度出發)。爲了說明這一點,我們看了以下簡單示例。讓 X 代表一個人的身高。考慮以下數據集
> Davis[12,c(2,3)]=Davis[12,c(3,2)]
在這裏,關注變量是給定人的身高,
> X=Davis$height
如果我們看直方圖,我們有
> hist(X,col="light green", border="white",proba=TRUE,xlab="",main="")
我們可以假設我們具有高斯分佈嗎?
在這裏,如果我們擬合高斯分佈,將其繪製出來,並添加基於核的估計量,我們將得到
> (param <- fitdistr(X,"normal")$estimate)
> f1 <- function(x) dnorm(x,param[1],param[2])
> x=seq(100,210,by=.2)
> lines(x,f1(x),lty=2,col="red")
> lines(density(X))
如果看那條黑線,可能會想到一種混合分佈,例如
當我們有一個獲得混合分佈不可觀察的異質性因子:概率 p1,一個隨機變量 ,概率p2,一個隨機變量 。我們可以使用例如
> (param12 <- c(mix$lambda[1],mix$mu,mix$sigma))
[1] 0.4002202 178.4997298 165.2703616 6.3561363 5.9460023
如果我們繪製兩個高斯分佈的混合圖,我們得到
> lines(x,f2(x),lwd=2, col="red") lines(density(X))
不錯。實際上,我們可以嘗試使用自己的代碼最大限度地提高可能性,
> bvec <- c(0,-1,0,0)
> constrOptim(c(.5,160,180,10,10), logL, NULL, ui = Amat, ci = bvec)$par
[1] 0.5996263 165.2690084 178.4991624 5.9447675 6.3564746
在這裏,我們包括一些約束,以保證概率屬於單位間隔,並且方差參數保持正值。
進一步來說,如果我們假設基礎分佈具有相同的方差,即
在這種情況下,我們必須使用之前的代碼,並進行一些小的更改,
> (param12c= constrOptim(c(.5,160,180,10), logL, NULL, ui = Amat, ci = bvec)$par)
[1] 0.6319105 165.6142824 179.0623954 6.1072614
如果我們不能觀察到異質性因素,這就是我們可以做的。我們實際上在數據集中有一些信息。例如,我們具有人的性別。現在,如果我們查看每個性別的身高直方圖,以及基於內核的每個性別的身高密度估計量,
因此,看起來男性的身高和女性的身高是不同的。也許我們可以使用實際觀察到的變量來解釋樣本中的異質性。在形式上,這裏的想法是考慮具有可觀察到的異質性因素的混合分佈:性別,
現在,我們對以前稱爲類[1]和[2]的解釋是:男性和女性。在這裏,估算參數非常簡單,
sex=="F"
mean sd
164.714286 5.633808
sex=="M"
mean sd
178.011364 6.404001
如果我們繪製密度,我們有
> lines(x,f4(x),lwd=3,col="blue")
如果再次假設相同的方差怎麼辦?即,模型變爲
然後,一個自然的想法是根據以前的計算得出方差的估計量
> s
[1] 6.015068
再一次,可以繪製相關的密度,
> lines(x,f5(x),lwd=3,col="blue")
現在,如果我們仔細考慮一下我們所做的事情,那僅僅是對一個因素(人的性別)的線性迴歸,
實際上,如果我們運行代碼來估算此線性模型,
Residuals:
Min 1Q Median 3Q Max
-16.7143 -3.7143 -0.0114 4.2857 18.9886
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 164.7143 0.5684 289.80 <2e-16 ***
sexM 13.2971 0.8569 15.52 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.015 on 198 degrees of freedom
Multiple R-squared: 0.5488, Adjusted R-squared: 0.5465
F-statistic: 240.8 on 1 and 198 DF, p-value: < 2.2e-16
我們得到的均值和方差的估計與之前獲得的估計相同。因此,正如今天上午在課堂上提到的,如果您有一個不可觀察的異質性因子,我們可以使用混合模型來擬合分佈,但是如果您可以得到該因子的替代,這是可觀察的,則可以運行迴歸。