PRML_频率与贝叶斯(一)

我们从数据中能得到以下信息:

总体信息。总体所属分布或者所属的分布族带来的信息;

样本信息。从总体中抽样得来的样本给我们提供的信息;

  • 以上两种信息进行的统计推断称为经典统计学。它的观点是把样本看成来自具有一定概率分布的总体。

先验信息。在抽样之前,对总体的基本认知,一般来自经验或历史资料。

  • 利用以上三种信息进行的统计推断称为贝叶斯统计。它的观点是:任一未知量θ\theta都可看做一个随机变量,应用一个概率分布去描述对θ\theta的未知状况。这个概率分布是在抽样前就有的关于θ\theta的先验信息的概率陈述。这个分布被称之为先验(Prior)分布。

关于未知量θ\theta的一些讨论:

  1. 依赖于参数θ\theta的密度函数在经典统计中记为p(x;θ)p(x;\theta)pθ(x)p_{\theta}(x),它表示在参数空间Θ={θ}\Theta=\{\theta\}中不同的θ\theta对应不同的分布。可以在贝叶斯统计中记为p(xθ)p(x|\theta),他表示在随机变量θ\theta给定某个值时,总体指标XX的条件分布。
  2. 根据参数θ\theta的先验信息确定先验分布π(θ)\pi(\theta)
  3. 从贝叶斯的观点看,样本x=(x1,Xn,)x=(x_1 ,···X_n,···)的产生分两步进行。首先设想从先验分布π(θ)\pi(\theta)产生一个样本θ\theta,这一步是“老天爷”做的,人们是看不到的,故用“设想”二字。第二步是从总体分布p(xθ)p(x|\theta)产生一个样本x=(x1,xn,)x=(x_1,···x_n,···),这个样本是具体的,人们能看得到的,此样本xx发生的概率是与如下联合密函数成正比。p(xθi)=i=1np(xiθi)p(x|\theta^i)=\prod_{i=1}^n{p(x_i|\theta^i)}这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为L(θi)L(\theta^i)。频率学派和贝叶斯学派都承认似然函数,二派认位:在有了样本观察值x=(x1,xn,)x=(x_1,···x_n,···)后,总体和样本所含θ\theta的信息都被包含在似然函数L(θi)L(\theta^i)之中,可在使用似然函数做统计推断时,两派还是有差异的。
  4. 由于θ\theta是设想出来的,他仍然是未知的,他是按先验分布π(θ)\pi(\theta)而产生的,要把先验信息进行综合,不能只考虑θ\theta,而应对θ\theta的一切可能加以考虑。故要用π(θ)\pi(\theta)参与进一步综合。这样一来,样本xx和参数θ\theta的联合分布h(x,θ)=p(xθ)π(θ)h(x,\theta)=p(x|\theta)\pi(\theta)把三种可用的信息都综合进去了。
  5. 我们的任务是要对未知数θ\theta做出统计推断。在没有样本信息时,人们只能根据先验分布对θ\theta做出判断。在有样本观察值x=(x1,xn,)x=(x_1,···x_n,···)后,我们应该依据h(x,θ)h(x,\theta)θ\theta作出推断。为此我们需要把h(x,θ)h(x,\theta)作如下分解:h(x,θ)=π(θx)m(x)h(x,\theta)=\pi(\theta|x)m(x)其中m(x)m(x)xx的边缘密度函数。m(x)=θh(x,θ)dθ=θp(xθ)π(θ)m(x)=\int_\theta{h(x,|\theta)d\theta}=\int_\theta{p(x|\theta)\pi(\theta)}他与θ\theta无关,或者说是,m(x)m(x)中不含θ\theta的任何信息。因此能用来对θ\theta做出推断的仅是条件分布π(θx)\pi(\theta|x)。他的计算公式为π(θx)=h(xθ)m(x)=p(xθ)π(θ)θp(xθ)π(θ)dθ\pi(\theta|x)=\frac{h(x|\theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int_\theta{p(x|\theta)\pi(\theta)}d\theta},这就是贝叶斯公式的密度函数形式。这个在样本xx给定下,θ\theta的条件分布被称为θ\theta的后验分布。他是集中了总体、样本和先验三种信息中包含有θ\theta的一切信息,而又是排除一切与θ\theta无关的信息之后所得到的结果。故基于后验分布π(θx)\pi(\theta|x)θ\theta进行统计推断是更为有效,也是合理的。
  6. θ\theta是离散随机变量时,先验分布可用先验分布列pi(θi),i=1,2\\pi(\theta_i),i=1,2···,表示。这时后验分布也是离散形式。π(θix)=p(xθi)π(θi)ip(xθi)π(θi),i=1,2,\pi(\theta_i|x)=\frac{p(x|\theta_i)\pi(\theta_i)}{\sum_i{p(x|\theta_i)\pi(\theta_i)}},i=1,2,···假如总体XX也是离散的,那么只要把密度安徽省农户p(xθ)p(x|\theta)看作是概率函数P(X=xθ)P(X=x|\theta)即可。

一般来说,先验分布π(θ)\pi(\theta)是反映人们在抽样分布前对θ\theta的认识,后验分布π(θx)\pi(\theta|x)是反映人们在抽样后θ\theta的认识。之间的差异是由于样本xx出现后人们对θ\theta认识的一种调整。所以后验分布π(θx)\pi(\theta|x)可以看作是人们用总体信息和样本信息对先验分布π(θ)\pi(\theta)做调整的结果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章