对信息准则的认识

对信息准则的认识

Knowledge of information standards

【摘要】为了在一组可供选择的模型中选取一个最优的模型,常常需要对统计模型的拟合程度进行衡量,本文介绍了几种衡量统计模型拟合优良性信息准则标准,通过对其概念的一般性认识可以帮助我们学习模型选择方面的知识。

【关键词】信息准则;AIC;BIC

AbstractIn order to select theoptimal one in a set of alternative model, we need to measure the fittingdegree of statistical model. This paper introduces several informationcriterion to measure the goodness of statistical models, through the generalunderstanding of the concept can help us learn the knowledge of modelselection.

Keywords:Information criterion, AIC,BIC

1. 引 言

常地,对一堆数据进行建模的时候,特别是分类和回归模型,我们有很多的变量可供使用,选择不同的变量组合可以得到不同的模型,例如我们有5个变量,2的5次方,我们将有32个变量组合,可以训练出32个模型。但是哪个模型更加的好呢?本文介绍了几种常见的信息准则如AIC、BIC等,这几种信息准则已经被广泛的应用在模型选择中,通过对模型拟合度的分析可以帮助我们选择最佳模型方案。

2. 几种常见的信息准则

2.1. AIC信息准则(akaike informationcriterion

2.1.1 基本概念

AIC信息准则,即Akaike information criterion,简称AIC,是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

2.1.2 AIC基本内容

①在一般的情况下,AIC可以表示为:

AIC=(2k-2L)/n      (1)

它的假设条件是模型的误差服从独立正态分布,其中:k是所拟合模型中参数的数量,L是对数似然值,n是观测值数目。

AIC的大小取决于L和k。k取值越小,AIC越小;L取值越大,AIC值越小。k小意味着模型简洁,L大意味着模型精确。因此AIC和修正的决定系数类似,在评价模型是兼顾了简洁性和精确性。

②让n为观察数,RSS为剩余平方和,那么AIC变为: 

AIC=2k+nln(RSS/n)        (2)

表明增加自由参数的数目提高了拟合的优良性,AIC鼓励数据拟合的优良性,但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。赤池信息准则(AIC)的方法是寻找可以最好地解释数据但包含最少自由参数的模型。

2.1.3 AIC相关内容

①AICc与AICu:在样本小的情况下,AIC转变为AICc:

AICc=AIC+[2k(k+1)/(n-k-1)        (3)

当n增加时,AICc收敛成AIC。所以AICc可以应用在任何样本大小的情况下。

把AICc定义为:

AICc=ln(RSS/n)+(n+k)/(n-k-2)        (4)

他们提出的另一个紧密相关指标为AICu:

AICu=ln[RSS/(n-k)]+(n+k)/(n-k-2)        (5)

②QAIC: QAIC(Quasi-AIC)可以定义为:

QAIC=2k-1/c*2lnL        (6)

其中:c是方差膨胀因素。因此QAIC可以调整过度离散(或者缺乏拟合)。

在小样本情况下, QAIC表示为:

QAICc=QAIC+2k(2k+1)/(n-k-1)        (7)

2.2. BIC信息准则Bayesian Information Criterion

贝叶斯信息准则,也称为BayesianInformation Criterion(BIC)。

2.2.1 理论概述

贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分,是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。

2.2.2 基本思想

贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:

已知类条件概率密度参数表达式和先验概率

利用贝叶斯公式转换成后验概率

根据后验概率大小进行决策分类

2.2.3公式

设D1,D2,……,Dn为样本空间S的一个划分,如果以P(Di)表示事件Di发生的概率,且P(Di)>0(i=1,2,…,n)。对于任一事件x,P(x)>0,

(1)如果我们已知被分类类别概率分布的形式和已经标记类别的训练样本集合,那我们就需要从训练样本集合中来估计概率分布的参数。在现实世界中有时会出现这种情况。(如已知为正态分布了,根据标记好类别的样本来估计参数,常见的是极大似然率和贝叶斯参数估计方法);

(2)如果我们不知道任何有关被分类类别概率分布的知识,已知已经标记类别的训练样本集合和判别式函数的形式,那我们就需要从训练样本集合中来估计判别式函数的参数。在现实世界中有时会出现这种情况。(如已知判别式函数为线性或二次的,那么就要根据训练样本来估计判别式的参数,常见的是线性判别式和神经网络);

(3)如果我们既不知道任何有关被分类类别概率分布的知识,也不知道判别式函数的形式,只有已经标记类别的训练样本集合。那我们就需要从训练样本集合中来估计概率分布函数的参数。在现实世界中经常出现这种情况。(如首先要估计是什么分布,再估计参数。常见的是非参数估计)。

    2.2.4 决策理论

    贝叶斯决策理论方法是统计模式识别中的一个基本方法。贝叶斯决策判据既考虑了各类参考总体出现的概率大小,又考虑了因误判造成的损失大小,判别能力强。贝叶斯方法更适用于下列场合:

(1) 样本(子样)的数量(容量)不充分大,因而大子样统计理论不适宜的场

合。

(2)试验具有继承性,反映在统计学上就是要具有在试验之前已有先验信息

的场合。用这种方法进行分类时要求两点:第一,要决策分类的参考总体的类别数是一定的。例如两类参考总体(正常状态Dl和异常状态D2),或L类参考总体D1,D2,…,DL(如良好、满意、可以、不满意、不允许、……);第二,各类参考总体的概率分布是已知的,即每一类参考总体出现的先验概率P(Di)以及各类概率密度函数P(x/Di)是已知的。显然,0≤P(Di)≤1,(i=l,2,…,L),∑P(Di)=1。

对于两类故障诊断问题,就相当于在识别前已知正常状态D1的概率户(D1)和异常状态0:的概率P(D2),它们是由先验知识确定的状态先验概率。如果不做进一步的仔细观测,仅依靠先验概率去作决策,那么就应给出下列的决策规则:若P(D1)>P(D2),则做出状态属于D1类的决策;反之,则做出状态属于D2类的决策。例如,某设备在365天中,有故障是少见的,无故障是经常的,有故障的概率远小于无故障的概率。因此,若无特B,j明显的异常状况,就应判断为无故障。显然,这样做对某一实际的待检状态根本达不到诊断的目的,这是由于只利用先验概率提供的分类信息太少了。

2.3. HQ信息准则

在信息准则法中,除了上述最常用的两个信息准则之外,还有一些其他的信息准则如HQ等。

HQ准则的基本思路与AIC和BIC基本一致,其区别仅仅在于对新增参数损害预测精度的惩罚力度不同。HQ的具体准则公式为:

            HQ=(ee/n)*((ln(n))^(2k/n))    (8)

其中: ee为残差平方和,k为待估计参数的个数。

一般地,不同的准则或统计量会选择出相异的最优滞后期数。这时可根据“多数通过”原则,选择多数方法所选择的那个滞后期数。或者对不同滞后期数的AR模型分别进行回归估计,然后考察结果是否对滞后期的选择很敏感。亦即不同滞后期对分析结论是否影响很大。最后再综合判定选择最优的一个滞后期数。

2.4. 信息准则之间的比较

   AIC=-2 ln(L) + 2 k  

   BIC=-2 ln(L) + ln(n)*k

HQ=-2ln(L) + ln(ln(n))*k  
  
 构造这些统计量所遵循的统计思想是一致的,就是在考虑拟合残差的同时,依自变量个数施加“惩罚”。但,倘若因此就说它们是同一个指标,恐怕还是有些不妥,毕竟“惩罚”的力度还是不尽相同的。此外,这些信息量的用途不仅限于选择模型,还能用于选取合适的变换等等。而在那些时候,这些信息量又是另一个模样,也就是说它们有许多变体。因此,它们也被称为AIC准则、BIC准则等等。它们中的每一个体现的都是一系列的标准,而非单独的一个简单式子。

注意:这些规则只是刻画了用某个模型之后相对“真实模型”的信息损失(因为不知道真正的模型是什么样子,所以训练得到的所有模型都只是真实模型的一个近似模型),所以用这些规则不能说明某个模型的精确度,即三个模型A, B, C,在通过这些规则计算后,我们知道B模型是三个模型中最好的,但是不能保证B这个模型就能够很好地刻画数据,因为很有可能这三个模型都是非常糟糕的,B只是烂苹果中的相对好的苹果而已。

3. 结论

通过对以上三个信息准则的学习,我们基本了解了AIC、BIC、及HQ信息准则的计算方法和相互之间的关系,并且了解到在一组可供选择的模型中,我们通过判断拟合程度能够挑出最优化的模型,但是这都是具有相对性的,并不是说所选择的模型就一定足够精确。

参考文献

[1]Renyan jiang.[M].Introduction to quality andReliability EngineeringScience Press Beijing201579-87.


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章