R語言對混合分佈中的不可觀測與可觀測異質性因子分析

原創

qq_19600291

2020-05-25 18:29

今天上午，在課程中，我們討論了利率制定中可觀察和不可觀察異質性之間的區別（從經濟角度出發）。爲了說明這一點，我們看了以下簡單示例。讓 X 代表一個人的身高。考慮以下數據集

> Davis[12,c(2,3)]=Davis[12,c(3,2)]

在這裏，關注變量是給定人的身高，

> X=Davis$height

如果我們看直方圖，我們有

> hist(X,col="light green", border="white",proba=TRUE,xlab="",main="")

我們可以假設我們具有高斯分佈嗎？

在這裏，如果我們擬合高斯分佈，將其繪製出來，並添加基於核的估計量，我們將得到

> (param <- fitdistr(X,"normal")$estimate) 
> f1 <- function(x) dnorm(x,param[1],param[2]) 
> x=seq(100,210,by=.2) 
> lines(x,f1(x),lty=2,col="red") 
> lines(density(X))

如果看那條黑線，可能會想到一種混合分佈，例如

當我們有一個獲得混合分佈不可觀察的異質性因子：概率 p1，一個隨機變量，概率p2，一個隨機變量。我們可以使用例如


> (param12 <- c(mix$lambda[1],mix$mu,mix$sigma)) 
[1] 0.4002202 178.4997298 165.2703616 6.3561363 5.9460023

如果我們繪製兩個高斯分佈的混合圖，我們得到


> lines(x,f2(x),lwd=2, col="red") lines(density(X))

不錯。實際上，我們可以嘗試使用自己的代碼最大限度地提高可能性，


> bvec <- c(0,-1,0,0)
> constrOptim(c(.5,160,180,10,10), logL, NULL, ui = Amat, ci = bvec)$par

[1]   0.5996263 165.2690084 178.4991624   5.9447675   6.3564746

在這裏，我們包括一些約束，以保證概率屬於單位間隔，並且方差參數保持正值。

進一步來說，如果我們假設基礎分佈具有相同的方差，即

在這種情況下，我們必須使用之前的代碼，並進行一些小的更改，


> (param12c= constrOptim(c(.5,160,180,10), logL, NULL, ui = Amat, ci = bvec)$par)

[1]   0.6319105 165.6142824 179.0623954   6.1072614

如果我們不能觀察到異質性因素，這就是我們可以做的。我們實際上在數據集中有一些信息。例如，我們具有人的性別。現在，如果我們查看每個性別的身高直方圖，以及基於內核的每個性別的身高密度估計量，

因此，看起來男性的身高和女性的身高是不同的。也許我們可以使用實際觀察到的變量來解釋樣本中的異質性。在形式上，這裏的想法是考慮具有可觀察到的異質性因素的混合分佈：性別，

現在，我們對以前稱爲類[1]和[2]的解釋是：男性和女性。在這裏，估算參數非常簡單，


sex=="F"
      mean         sd 
164.714286   5.633808 
sex=="M"
      mean         sd 
178.011364   6.404001

如果我們繪製密度，我們有

> lines(x,f4(x),lwd=3,col="blue")

如果再次假設相同的方差怎麼辦？即，模型變爲

然後，一個自然的想法是根據以前的計算得出方差的估計量


> s
[1] 6.015068

再一次，可以繪製相關的密度，

> lines(x,f5(x),lwd=3,col="blue")

現在，如果我們仔細考慮一下我們所做的事情，那僅僅是對一個因素（人的性別）的線性迴歸，

實際上，如果我們運行代碼來估算此線性模型，


Residuals:
     Min       1Q   Median       3Q      Max 
-16.7143  -3.7143  -0.0114   4.2857  18.9886 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 164.7143     0.5684  289.80   <2e-16 ***
sexM         13.2971     0.8569   15.52   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.015 on 198 degrees of freedom
Multiple R-squared:  0.5488,	Adjusted R-squared:  0.5465 
F-statistic: 240.8 on 1 and 198 DF,  p-value: < 2.2e-16

我們得到的均值和方差的估計與之前獲得的估計相同。因此，正如今天上午在課堂上提到的，如果您有一個不可觀察的異質性因子，我們可以使用混合模型來擬合分佈，但是如果您可以得到該因子的替代，這是可觀察的，則可以運行迴歸。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

R語言對混合分佈中的不可觀測與可觀測異質性因子分析

R語言對混合分佈中的不可觀測與可觀測異質性因子分析

R語言模擬人類生活預期壽命動態可視化動畫圖gif

R語言泊松迴歸對保險定價建模中的應用：風險敞口作爲可能的解釋變量

R語言隨機森林模型中具有相關特徵的變量重要性

R語言模擬保險模型中分類器的ROC曲線不良表現

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結