线性模型
线性模型是一类统计模型的总称,它包括了线性回归模型、方差分析模型、协方差分析模型和线性混合效应模型(或称方差分量模型)等。许多生物、医学、经济、管理、地质、气象、农业、工业、工程技术等领域的现象都可以用线性模型来近似描述。因此线性模型成为现代统计学中应用最为广泛的模型之一。这里将简单介绍线性模型的基本理论和方法以及实际应用。
1. 线性回归模型
线性回归模型是最常见的一类线性模型,它的数学基础是回归分析,即用回归分析方法建立线性模型,用以揭示经济现象中的因果关系,被广泛的应用于社会经济现象变量之间的影响因素和关联的研究。线性回归模型根据所涉及变量的多少不同,可以分为简单线性回归模型和多元线性回归模型。
1.1 一元线性回归模型
一元线性回归模型又称为简单线性回归模型,是指两个变量之间的回归。其一般形式为:
Y = β 0 + β 1 X + e
Y=\beta _0+\beta _1X+e
Y = β 0 + β 1 X + e
其中,Y通常称为因变量或被解释变量,X称为自变量或解释变量。β 0 \beta _0 β 0 和β 1 \beta _1 β 1 为模型的待估参数,e为随机误差项。
对于一元线性回归模型,满足如下基本假设:
(1)随机误差项e是一个期望值为0的随机向量,即E ( e ) = 0 E\left( e \right) =0 E ( e ) = 0 。对于一个给定的X值,Y的期望值为E ( Y ) = β 0 + β 1 X
E\left( Y \right) =\beta _0+\beta _1X
E ( Y ) = β 0 + β 1 X
(2)对于所有的X值,随机误差项e的方差都相同。即V a r ( e i ) = σ 2 Var\left( e_i \right) =\sigma ^2 V a r ( e i ) = σ 2
(3)误差项e是一个服从正态分布的随机向量,且相互独立。即e ∼ N ( 0 , σ 2 ) e\sim N\left( 0,\sigma ^2 \right) e ∼ N ( 0 , σ 2 )
总体回归参数β 0 \beta _0 β 0 和β 1 \beta _1 β 1 是未知的,必须利用样本数据去估计。用样本统计量β ^ 0 \hat{\beta}_0 β ^ 0 和β ^ 1 \hat{\beta}_1 β ^ 1 代替回归方程中的未知参数。可以得到估计的回归方程为:
Y ^ = β ^ 0 + β ^ 1 X
\hat{Y}=\hat{\beta}_0+\hat{\beta}_1X
Y ^ = β ^ 0 + β ^ 1 X
回归系数的确定可以运用最小二乘法估计回归系数。最小二乘法是使因变量的观察值与估计值之间的离差平方和达到最小来求得β 0 \beta _0 β 0 和β 1 \beta _1 β 1 的方法。即
Q ( β ^ 0 , β ^ 1 ) = ∑ i = 1 n e i 2 = ∑ i = 1 n ( Y i − Y ^ i ) 2 = ∑ i = 1 n ( Y i − β ^ 0 − β ^ 1 X i ) 2 = 最小
Q\left( \hat{\beta}_0,\hat{\beta}_1 \right) =\sum_{i=1}^n{e_i^2=}\sum_{i=1}^n{\left( Y_i-\hat{Y}_i \right) ^2=}\sum_{i=1}^n{\left( Y_i-\hat{\beta}_0-\hat{\beta}_1X_i \right) ^2=}\text{最小}
Q ( β ^ 0 , β ^ 1 ) = i = 1 ∑ n e i 2 = i = 1 ∑ n ( Y i − Y ^ i ) 2 = i = 1 ∑ n ( Y i − β ^ 0 − β ^ 1 X i ) 2 = 最小
由多元微分学可知,使Q达到最小的β 0 \beta _0 β 0 和β 1 \beta _1 β 1 必须满足
{ ∂ Q ∂ β 0 = − 2 ∑ i = 1 n ( Y i − β ^ 0 − β ^ 1 X i ) = 0 ∂ Q ∂ β 1 = − 2 ∑ i = 1 n ( Y i − β ^ 0 − β ^ 1 X i ) X i = 0
\left\{ \begin{array}{l}
\frac{\partial Q}{\partial \beta _0}=-2\sum_{i=1}^n{\left( Y_i-\hat{\beta}_0-\hat{\beta}_1X_i \right)}=0\\
\\
\frac{\partial Q}{\partial \beta _1}=-2\sum_{i=1}^n{\left( Y_i-\hat{\beta}_0-\hat{\beta}_1X_i \right)}X_i=0\\
\end{array} \right.
⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ ∂ β 0 ∂ Q = − 2 ∑ i = 1 n ( Y i − β ^ 0 − β ^ 1 X i ) = 0 ∂ β 1 ∂ Q = − 2 ∑ i = 1 n ( Y i − β ^ 0 − β ^ 1 X i ) X i = 0
求解上述方程可解得:
{ β ^ 1 = n ∑ Y i X i − ∑ Y i ∑ X i n ∑ X i 2 − ( ∑ X i ) 2 β ^ 0 = Y ˉ − β ^ 1 X ˉ
\left\{ \begin{array}{l}
\hat{\beta}_1=\frac{n\sum{Y_iX_i-\sum{Y_i\sum{X_i}}}}{n\sum{X_i^2-\left( \sum{X_i} \right) ^2}}\\
\\
\hat{\beta}_0=\bar{Y}-\hat{\beta}_1\bar{X}\\
\end{array} \right.
⎩ ⎪ ⎨ ⎪ ⎧ β ^ 1 = n ∑ X i 2 − ( ∑ X i ) 2 n ∑ Y i X i − ∑ Y i ∑ X i β ^ 0 = Y ˉ − β ^ 1 X ˉ
一元线性回归模型的统计检验主要包括拟合优度检验、变量的显著性检验及参数检验的置信区间估计。
一、拟合优度检验
Y的观测值围绕其均值的总离差平方和可以分解为两个部分:一个部分来自回归线,另一部分则来自随机势力。因此,可用来自回归线的平方和ESS占Y的总离差平方和TSS的比例来判断样本回归线与样本观测值的拟合优度。因此根据上述关系可以用
R 2 = E S S T S S = ∑ i = 1 n ( Y ^ i − Y ˉ ) 2 ∑ i = 1 n ( Y i − Y ˉ ) 2 = 1 − ∑ i = 1 n ( Y i − Y ^ ) 2 ∑ i = 1 n ( Y i − Y ˉ ) 2
R^2=\frac{ESS}{TSS}=\frac{\sum_{i=1}^n{\left( \hat{Y}_i-\bar{Y} \right) ^2}}{\sum_{i=1}^n{\left( Y_i-\bar{Y} \right) ^2}}=1-\frac{\sum_{i=1}^n{\left( Y_i-\hat{Y} \right) ^2}}{\sum_{i=1}^n{\left( Y_i-\bar{Y} \right) ^2}}
R 2 = T S S E S S = ∑ i = 1 n ( Y i − Y ˉ ) 2 ∑ i = 1 n ( Y ^ i − Y ˉ ) 2 = 1 − ∑ i = 1 n ( Y i − Y ˉ ) 2 ∑ i = 1 n ( Y i − Y ^ ) 2
检验模型的拟合优度,其中R 2 R^2 R 2 称为可决系数,反映回归直线的拟合程度,取值范围在[0,1]之间。R 2 R^2 R 2 越趋近于1,说明回归方程拟合程度越好;越靠近0,说明回归方程拟合程度越差。
二、变量的显著性检验
变量的显著性检验是对模型中解释变量与被解释变量之间的线性关系是否显著成立作出推断,或者说检验解释变量是否对被解释变量有显著的线性影响。
(1) 回归系数的显著性检验(t检验)
提出假设
H 0 : β 1 = 0 ↔ H 1 : β 1 ≠ 0
H_0\text{:}\beta _1=0\leftrightarrow H_1\text{:}\beta _1\ne 0
H 0 : β 1 = 0 ↔ H 1 : β 1 = 0
计算检验统计量:
t = β ^ 1 S β ^ 1 ∼ t ( n − 2 )
t=\frac{\hat{\beta}_1}{S_{\hat{\beta}_1}}\sim t\left( n-2 \right)
t = S β ^ 1 β ^ 1 ∼ t ( n − 2 )
确定显著性水平α,得到一个临界值t α 2 ( n − 2 ) t_{\frac{\alpha}{2}}\left( n-2 \right) t 2 α ( n − 2 ) ,并进行决策。
若∣ t ∣ > t α 2 ( n − 2 ) \left| t \right|>t_{\frac{\alpha}{2}}\left( n-2 \right) ∣ t ∣ > t 2 α ( n − 2 ) ,则在α的显著性水平下拒绝原假设H 0 H_0 H 0 ,即变量X是显著的,通过变量的显著性检验;若∣ t ∣ < t α 2 ( n − 2 ) \left| t \right|<t_{\frac{\alpha}{2}}\left( n-2 \right) ∣ t ∣ < t 2 α ( n − 2 ) ,则在显著性水平α下拒绝原假设H 0 H_0 H 0 ,表明变量是不显著的,未通过变量的显著性检验。
(2) 回归方程的显著性检验(F检验)
提出假设:
H 0 :线性关系不显著
H_0\text{:线性关系不显著}
H 0 :线性关系不显著
计算检验统计量F:
F = E S S / 1 R S S / ( n − 2 ) = ∑ i = 1 n ( Y ^ i − Y ˉ ) 2 / 1 ∑ i = 1 n ( Y i − Y ^ i ) 2 / ( n − 2 ) F ( 1 , n − 2 )
F=\frac{ESS/1}{RSS/\left( n-2 \right)}=\frac{\sum_{i=1}^n{\left( \hat{Y}_i-\bar{Y} \right)}^2/1}{\sum_{i=1}^n{\left( Y_i-\hat{Y}_i \right) ^2/\left( n-2 \right)}}~F\left( 1,n-2 \right)
F = R S S / ( n − 2 ) E S S / 1 = ∑ i = 1 n ( Y i − Y ^ i ) 2 / ( n − 2 ) ∑ i = 1 n ( Y ^ i − Y ˉ ) 2 / 1 F ( 1 , n − 2 )
确定显著性水平α,并根据分子自由度1和分母自由度n-2找出临界值F α ( 1 , n − 2 ) F_{\alpha}\left( 1,n-2 \right) F α ( 1 , n − 2 ) 作出决策:若F > F α ( 1 , n − 2 ) F>F_{\alpha}\left( 1,n-2 \right) F > F α ( 1 , n − 2 ) 拒绝H 0 H_0 H 0 ;若F < F α ( 1 , n − 2 ) F<F_α (1,n-2) F < F α ( 1 , n − 2 ) ,不拒绝H 0 H_0 H 0 ;
1.2 多元线性回归模型
在实际应用中,由于经济现象的复杂性,一个被解释变量往往受多个解释变量的影响,多元回归模型就是在方程中有两个或两个以上自变量的线性回归模型。因此多元线性回归模型也称为复杂线性回归模型,它是一元线性回归模型的推广,研究的是一组自变量如何直接影响一个因变量。
多元线性回归模型的基本形式如下:
Y = β 0 + β 1 X 1 + ⋯ + β k X k + e
Y=\beta _0+\beta _1X_1+\cdots +\beta _kX_k+e
Y = β 0 + β 1 X 1 + ⋯ + β k X k + e
其中Y为因变量或被解释变量;X i X_i X i 为自变量或解释变量; β 0 , β 1 , ⋯ , β k \beta _0,\beta _1,\cdots ,\beta _k β 0 , β 1 , ⋯ , β k 称为待估计的未知参数;e为随机误差。
假定有n组观测值{ X i 1 , X i 2 , ⋯ , X i , k , Y i : ( i = 1 , ⋯ , n ) } \{X_{i1},X_{i2},\cdots ,X_{i,\text{k}},Y_i:\left( i=1,\cdots ,n \right) \} { X i 1 , X i 2 , ⋯ , X i , k , Y i : ( i = 1 , ⋯ , n ) } ,其方程形式满足:
Y i = β 0 + β 1 X i 1 + β 2 X i 2 + ⋯ + β k X i k + e i , ( i = 1 , 2 , ⋯ , n )
Y_i=\beta _0+\beta _1X_{i1}+\beta _2X_{i2}+\cdots +\beta _kX_{ik}+e_i,\left( i=1,2,\cdots ,n \right)
Y i = β 0 + β 1 X i 1 + β 2 X i 2 + ⋯ + β k X i k + e i , ( i = 1 , 2 , ⋯ , n )
即:
{ Y 1 = β 0 + β 1 X 11 + β 2 X 12 + ⋯ + β k X 1 k + e 1 Y 2 = β 0 + β 1 X 21 + β 2 X 22 + ⋯ + β k X 2 k + e 2 ⋯ Y n = β 0 + β 1 X n 1 + β 2 X n 2 + ⋯ + β k X n k + e n
\left\{ \begin{array}{l}
Y_1=\beta _0+\beta _1X_{11}+\beta _2X_{12}+\cdots +\beta _kX_{1k}+e_1\\
\\
Y_2=\beta _0+\beta _1X_{21}+\beta _2X_{22}+\cdots +\beta _kX_{2k}+e_2\\
\cdots\\
\\
Y_n=\beta _0+\beta _1X_{n1}+\beta _2X_{n2}+\cdots +\beta _kX_{nk}+e_n\\
\end{array} \right.
⎩ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎧ Y 1 = β 0 + β 1 X 1 1 + β 2 X 1 2 + ⋯ + β k X 1 k + e 1 Y 2 = β 0 + β 1 X 2 1 + β 2 X 2 2 + ⋯ + β k X 2 k + e 2 ⋯ Y n = β 0 + β 1 X n 1 + β 2 X n 2 + ⋯ + β k X n k + e n
其矩阵形式为:
( Y 1 Y 2 ⋮ Y n ) = ( 1 X 11 ⋯ X 1 k 1 X 21 ⋯ X 2 k ⋮ ⋮ ⋮ 1 X n 1 ⋯ X n k ) ( β 0 β 1 ⋮ β k ) + ( e 1 e 2 ⋮ e n )
\left( \begin{array}{c}
Y_1\\
Y_2\\
\vdots\\
Y_n\\
\end{array} \right) =\left( \begin{matrix}
1& X_{11}& \cdots& X_{1k}\\
1& X_{21}& \cdots& X_{2k}\\
\vdots& \vdots& & \vdots\\
1& X_{n1}& \cdots& X_{nk}\\
\end{matrix} \right) \left( \begin{array}{c}
\beta _0\\
\beta _1\\
\vdots\\
\beta _k\\
\end{array} \right) +\left( \begin{array}{c}
e_1\\
e_2\\
\vdots\\
e_n\\
\end{array} \right)
⎝ ⎜ ⎜ ⎜ ⎛ Y 1 Y 2 ⋮ Y n ⎠ ⎟ ⎟ ⎟ ⎞ = ⎝ ⎜ ⎜ ⎜ ⎛ 1 1 ⋮ 1 X 1 1 X 2 1 ⋮ X n 1 ⋯ ⋯ ⋯ X 1 k X 2 k ⋮ X n k ⎠ ⎟ ⎟ ⎟ ⎞ ⎝ ⎜ ⎜ ⎜ ⎛ β 0 β 1 ⋮ β k ⎠ ⎟ ⎟ ⎟ ⎞ + ⎝ ⎜ ⎜ ⎜ ⎛ e 1 e 2 ⋮ e n ⎠ ⎟ ⎟ ⎟ ⎞
等价地 Y=Xβ+e
这里Y ( n × 1 ) Y_{\left( n×1 \right)} Y ( n × 1 ) 为被解释变量的观测值向量;X ( n × ( k + 1 ) ) X_{\left( n×\left( k+1 \right) \right)} X ( n × ( k + 1 ) ) 为解释变量的观测值矩阵,通常称为设计矩阵;β ( ( k + 1 ) × 1 ) \beta _{\left( \left( k+1 \right) ×1 \right)} β ( ( k + 1 ) × 1 ) 为未知参数向量,其中 称为常数项;e ( n × 1 ) e_{\left( n×1 \right)} e ( n × 1 ) 为随机误差向量。
为使参数估计量具有良好的统计性质,多元线性回归模型的观测数据和残差需满足如下的假定条件。
(1) 因变量Y是服从正态分布的连续型随机变量。
(2) k个自变量在所抽取的样本中具有变异性,并且为固定变量,即非随机的或无度量的变量。
(3) k个自变量之间不存在多重共线性。
(4) k个自变量与随机误差项项相互独立,即:
C o v ( e i , X j ) = E ( X j e i ) = 0 , j = 1 , 2 , ⋯ , k
Cov\left( e_i,X_j \right) =E\left( X_je_i \right) =0,j=1,2,\cdots ,k
C o v ( e i , X j ) = E ( X j e i ) = 0 , j = 1 , 2 , ⋯ , k
(5) 随机误差项均值为零E ( e i ) = 0 E\left( e_i \right) =0 E ( e i ) = 0 ,具有等方差V a r ( e i ) = σ 2 , i = 1 , ⋯ , n Var\left( e_i \right) =\sigma ^2\text{,}i=1,\cdots ,n V a r ( e i ) = σ 2 , i = 1 , ⋯ , n
(6) 随机误差项彼此不相关,即:
C o v ( e i , e j ) = 0 , i ≠ j , i , j = 1 , ⋯ , n
Cov\left( e_i,e_j \right) =0\text{,}i\ne j\text{,}i,j=1,\cdots ,n
C o v ( e i , e j ) = 0 , i = j , i , j = 1 , ⋯ , n
(7) 随机误差项满足正态分布:
e i ∼ N ( 0 , σ 2 )
e_i\sim N\left( 0,\sigma ^2 \right)
e i ∼ N ( 0 , σ 2 )
因此模型可以用矩阵形式表示为最基本的线性回归模型:
Y = X β + e , E ( e ) = 0 , C o v ( e ) = σ 2 I
Y=X\beta +e\text{,}E\left( e \right) =0\text{,}Cov\left( e \right) =\sigma ^2I
Y = X β + e , E ( e ) = 0 , C o v ( e ) = σ 2 I
由最小二乘法可知β ^ 0 , β ^ 1 , ⋯ β ^ k \hat{\beta}_0,\hat{\beta}_1,\cdots \hat{\beta}_k β ^ 0 , β ^ 1 , ⋯ β ^ k 应使全部观测值Y i Y_i Y i 与回归值Y ^ i \hat{Y}_i Y ^ i 的残差 e i e_i e i 的平方和最小,即使:
Q ( β ^ 0 , β ^ 1 , ⋯ β ^ k ) = ∑ e i 2 = ∑ ( Y i − Y ^ i ) 2 = ∑ ( Y i − β ^ 0 − β ^ 1 X i 1 − ⋯ − β ^ k X i k ) 2
Q\left( \hat{\beta}_0,\hat{\beta}_1,\cdots \hat{\beta}_k \right) =\sum{e_i^2}
=\sum{\left( Y_i-\hat{Y}_i \right) ^2=\sum{\left( Y_i-\hat{\beta}_0-\hat{\beta}_1X_{i1}-\cdots -\hat{\beta}_kX_{ik} \right) ^2}}
Q ( β ^ 0 , β ^ 1 , ⋯ β ^ k ) = ∑ e i 2 = ∑ ( Y i − Y ^ i ) 2 = ∑ ( Y i − β ^ 0 − β ^ 1 X i 1 − ⋯ − β ^ k X i k ) 2
取得最小值。根据多元函数极值原理,Q分别对β ^ 0 , β ^ 1 , ⋯ β ^ k \hat{\beta}_0,\hat{\beta}_1,\cdots \hat{\beta}_k β ^ 0 , β ^ 1 , ⋯ β ^ k 求一阶偏导,并令其为0,可得到待估参数估计值的正规方程。
∂ Q ∂ β ^ j = 0 ( j = 0 , 1 , ⋯ , k )
\frac{\partial Q}{\partial \hat{\beta}_j}=0\ \ \ \left( j=0,1,\cdots ,k \right)
∂ β ^ j ∂ Q = 0 ( j = 0 , 1 , ⋯ , k )
求解的参数的最小二乘估计值为
β ^ = ( X ′ X ) − 1 X ′ Y
\hat{\beta}=\left( X'X \right) ^{-1}X'Y
β ^ = ( X ′ X ) − 1 X ′ Y
多元线性回归模型的统计检验
一、拟合优度检验
在多元线性回归模型中,也可以用可决系数R 2 R^2 R 2 来衡量样本回归线对样本观测值的拟合优度。根据多元线性和回归模型可以将总离差平方和TSS分解为回归平方和SSE以及残差平方和SSR两个部分,即
∑ ( Y i − Y ˉ ) 2 = ∑ ( Y ^ i − Y ˉ ) 2 + ∑ ( Y i − Y ^ i ) 2
\sum{\left( Y_i-\bar{Y} \right) ^2}=\sum{\left( \hat{Y}_i-\bar{Y} \right)}^2+\sum{\left( Y_i-\hat{Y}_i \right) ^2}
∑ ( Y i − Y ˉ ) 2 = ∑ ( Y ^ i − Y ˉ ) 2 + ∑ ( Y i − Y ^ i ) 2
因此在多元线性回归中,定义可决系数为:
R 2 = S S R S S T = 1 − S S E S S T
R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}
R 2 = S S T S S R = 1 − S S T S S E
R 2 R^2 R 2 作为检验回归方程与样本值拟合优度的指标, R 2 ( 0 ≤ R 2 ≤ 1 ) R^2\left( 0\le R^2\le 1 \right) R 2 ( 0 ≤ R 2 ≤ 1 ) 越大,表示回归方程与样本值拟合的越好;反之,回归方程与样本值拟合的较差。
在现实应用过程中,如果在模型中增加一个解释变量,R 2 R^2 R 2 往往增大,而由增加解释变量个数引起的R 2 R^2 R 2 的增大与拟合好坏无关,因此在多元回归模型之间比较拟合优度,R^2就不是一个合适的指标,必须加以调整。将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。记为调整的可决系数,则有
R ˉ 2 = 1 − S S R / ( n − p − 1 ) S S T / ( n − 1 )
\bar{R}^2=1-\frac{SSR/\left( n-p-1 \right)}{SST/\left( n-1 \right)}
R ˉ 2 = 1 − S S T / ( n − 1 ) S S R / ( n − p − 1 )
二、 方程显著性的F检验
回归方程总体线性的显著性检验是对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。即检验模型
Y i = β 0 + β 1 X i 1 + ⋯ + β k X i k + e i
Y_i=\beta _0+\beta _1X_{i1}+\cdots +\beta _kX_{ik}+e_i
Y i = β 0 + β 1 X i 1 + ⋯ + β k X i k + e i
中参数β 0 , β 1 , ⋯ , β k \beta _0,\beta _1,\cdots ,\beta _k β 0 , β 1 , ⋯ , β k 是否显著不为零。因此提出假设问题
H 0 : β 1 = 0 , β 2 = 0 , ⋯ , β k = 0 − H 1 : β j ( j = 1 , 2 , ⋯ , k ) 不全为零
H_0\text{:}\beta _1=0,\beta _2=0,\cdots ,\beta _k=0-
H_1\text{:}\beta _j\left( j=1,2,\cdots ,k \right) \text{不全为零}
H 0 : β 1 = 0 , β 2 = 0 , ⋯ , β k = 0 − H 1 : β j ( j = 1 , 2 , ⋯ , k ) 不全为零
在H 0 H_0 H 0 成立的条件下,计算统计量FF = S S R / k S S E / ( n − k − 1 ) F ( k , n − k − 1 )
F=\frac{SSR/k}{SSE/\left( n-k-1 \right)}~F\left( k,n-k-1 \right)
F = S S E / ( n − k − 1 ) S S R / k F ( k , n − k − 1 )
对于假设H 0 H_0 H 0 ,根据样本观测值计算统计量F,给定显著性水平α,得出临界值F α ( k , n − k − 1 ) F_{\alpha}\left( k,n-k-1 \right) F α ( k , n − k − 1 ) 。当F ≥ F α ( k , n − k − 1 ) F\ge F_{\alpha}\left( k,n-k-1 \right) F ≥ F α ( k , n − k − 1 ) 时,拒绝H 0 H_0 H 0 ,则认为回归方程显著成立;当F < F α ( k , n − k − 1 ) F<F_{\alpha}\left( k,n-k-1 \right) F < F α ( k , n − k − 1 ) 时,接受H 0 H_0 H 0 ,则认为回归方程无显著意义。
三、 参数显著性检验(t检验)
在多元线性回归中,回归方程显著并不意味着每个自变量对因变量的影响都显著,因此就需要对每个自变量进行显著性检验。显然,如果某个自变量X对Y的作用不显著,那么它在回归模型中,其前面的系数可取值为零。
为此提出假设
H 0 : β j = 0 ↔ H 1 : β j ≠ 0
H_0\text{:}\beta _j=0\leftrightarrow H_1\text{:}\beta _j\ne 0
H 0 : β j = 0 ↔ H 1 : β j = 0
计算检验统计量t
t = β ^ j c j j σ ^
t=\frac{\hat{\beta}_j}{\sqrt{c_{jj}}\hat{\sigma}}
t = c j j σ ^ β ^ j
其中,c j j = ( X ′ X ) − 1 c_{jj}=\left( X'X \right) ^{-1} c j j = ( X ′ X ) − 1 ,σ ^ = S S E / ( n − k − 1 ) \hat{\sigma}=\sqrt{SSE/\left( n-k-1 \right)} σ ^ = S S E / ( n − k − 1 ) 是回归标准差。
当原假设成立时,上述t统计量服从自由度为n-k-1的t分布。给定显著性水平α,可以得出临界值t α 2 ( n − k − 1 ) t_{\frac{\alpha}{2}}\left( n-k-1 \right) t 2 α ( n − k − 1 ) 。当∣ t ∣ > t α 2 ( n − k − 1 ) \left| t \right|>t_{\frac{\alpha}{2}}\left( n-k-1 \right) ∣ t ∣ > t 2 α ( n − k − 1 ) 时,拒绝原假设 ,认为β j β_j β j 显著不为零,自变量X j X_j X j 对因变量Y的线性效果显著;否则认为β j β_j β j 显著为零,自变量X j X_j X j 对因变量Y的线性效果不显著。
2. 方差分析模型
方差分析模型(variance analysis model)又称实验设计模型,是一种特殊的线性模型。
在线性回归模型中,所涉及的自变量一般来说都可以是连续变量,研究的基本目的是寻求因变量与自变量之间客观存在的依赖关系。而方差分析模型的自变量为示性变量,这种变量往往表示某种效应大小的存在与否,只能取0或1。因此在实际问题中,方差分析模型是比较两个或多个因素效应大小的一种有力工具,广泛应用于工业、农业、经济、生物、医学等领域。
2.1 方差分析模型概述
在实际应用中,常常需要判断几组观察到的数据或者处理的结果是否存在显著差异。
而方差分析模型就是用于检验两组或者两组以上样本的均值是否具备显著性差异的一种有效的数理统计方法。
一、分析模型中涉及的一些基本概念:
(1)因变量(Dependent):试验结果,通常用y表示,为一个随机变量;
(2)因素(Factor):在试验中影响因变量的自变量,也称为因子,常用大写字母A、B、C表示;
(3)水平:为了研究自变量对因变量的影响,需要考虑自变量两个或多个不同的取值情况,这些取值称为因子的水平,例如因子A的r个不同水平表示为 A 1 , A 2 , ⋯ , A r A_1,A_2,\cdots ,A_r A 1 , A 2 , ⋯ , A r 。
(4)试验条件(也称处理):在单因子试验中,每个水平就是一个处理,在多因子试验中,每个因子取一个特定的水平,这些特定水平的组合称其为一个试验条件,又称为一个处理。
二、方差分析模型有三个基本的假定:
(1)正态性:每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本;
(2)独立性:每个样本数据是来自因子各水平独立的样本
(3)方差齐性:各个总体的方差 σ 2 \sigma ^2 σ 2 必须相同。
在三个基本假定中,方差分析模型对于独立性的要求比较严格,若该假设不满足,则结果往往会受到较大的影响。
2.2 单因素方差分析
单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响,对於单因素方差分析问题,假定因素A有r个水平(总体),记为A 1 , A 2 , ⋯ , A r A_1,A_2,\cdots ,A_r A 1 , A 2 , ⋯ , A r ,设y i y_i y i 为第i个水平下的试验结果,y i − N ( μ i , σ 2 ) y_i-N(μ_i,σ^2) y i − N ( μ i , σ 2 ) ,在A i A_i A i 水平下做 t 次试验,获得 t 个数据,则 y i j y_{ij} y i j 表示第 i 个水平(总体)的第 j 个观测值 。
在假定都成立的前提下,要比较因素A的r个水平的差异,在形式上可转化为比较r个水平(总体)的均值是否相等。因此提出假设检验:
H 0 : μ 1 = μ 2 = ⋯ = μ r ⟷ H 1 : μ 1 , μ 2 , ⋯ , μ r 不全相等 H_0\text{:}\mu _1=\mu _2=\cdots =\mu _r\longleftrightarrow H_1\text{:}\mu _1,\mu _2,\cdots ,\mu _r\text{不全相等} H 0 : μ 1 = μ 2 = ⋯ = μ r ⟷ H 1 : μ 1 , μ 2 , ⋯ , μ r 不全相等
由于y i j y_{ij} y i j 的取值既受不同水平A i A_i A i 的影响,又受A i A_i A i 固定下随机因素的影响,所以单因素方差分析模型为:
于是单因素方差模型可写成:
{ y i j = μ + α i + e i j e i j N ( 0 , σ 2 ) ∑ i = 1 r α i = 0 i = 1 , 2 , ⋯ , r ; j = 1 , 2 , ⋯ , t
\left\{ \begin{array}{l}
y_{ij}=\mu +\alpha _i+e_{ij}\\
\\
e_{ij}~N\left( 0,\sigma ^2 \right)\\
\\
\sum_{i=1}^r{\alpha _i}=0\\
\end{array} \right. \ \ \ \ i=1,2,\cdots ,r\ ;\ j=1,2,\cdots ,t\
⎩ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎧ y i j = μ + α i + e i j e i j N ( 0 , σ 2 ) ∑ i = 1 r α i = 0 i = 1 , 2 , ⋯ , r ; j = 1 , 2 , ⋯ , t
原假设等价于
H 0 : α 1 = α 2 = ⋯ = α r = 0
H_0\text{:}\alpha _1=\alpha _2=\cdots =\alpha _r=0
H 0 : α 1 = α 2 = ⋯ = α r = 0
如果H 0 H_0 H 0 被拒绝,则说明因素A的各水平的效应之间有显著的差异。
由观测值y i j y_{ij} y i j 的波动可由因素的A的不同水平以及试验的随机误差e引起,因此在单因素方差分析中,总离差平方和SST可分解为组间平方和SSA以及组内平方和SSE两部分,具体记为:
(1) 总离差平方和S S T = ∑ i = 1 r ∑ j = 1 t ( y i j − y ˉ ) 2 SS_T=\sum_{i=1}^r{\sum_{j=1}^t{\left( y_{ij}-\bar{y} \right) ^2}} S S T = ∑ i = 1 r ∑ j = 1 t ( y i j − y ˉ ) 2 , 反映全部试验数据之间的差异
其自由度为f T = n − 1 ( n = r × t ) f_T=n-1(n=r×t) f T = n − 1 ( n = r × t )
(2) 组间平方和S S A = ∑ i = 1 r t ( y ˉ i − y ˉ ) 2 SS_A=\sum_{i=1}^r{t\left( \bar{y}_i-\bar{y} \right) ^2} S S A = ∑ i = 1 r t ( y ˉ i − y ˉ ) 2 , 为r个水平均值差异大小的度量
其自由度为f T = r − 1 f_T=r-1 f T = r − 1
(3) 组内平方和S S E = ∑ i = 1 r ∑ j = 1 t ( y i j − y ˉ i ) 2 SS_E=\sum_{i=1}^r{\sum_{j=1}^t{\left( y_{ij}-\bar{y}_i \right) ^2}} S S E = ∑ i = 1 r ∑ j = 1 t ( y i j − y ˉ i ) 2 ,其自由度为f T = n − r f_T=n-r f T = n − r
(4) 三种变异的关系为
S S T = S S A + S S E SS_T=SS_A+SS_E S S T = S S A + S S E
由相关的证明推理可知,当H 0 H_0 H 0 成立时此构造出方差分析的统计量
F = S S A / ( r − 1 ) S S E / ( n − r ) F ( r − 1 , n − r )
F=\frac{SS_A/\left( r-1 \right)}{SS_E/\left( n-r \right)}~F\left( r-1,n-r \right)
F = S S E / ( n − r ) S S A / ( r − 1 ) F ( r − 1 , n − r )
因此在给定的显著性水平α,若F > F α ( r − 1 , n − r ) F>F_{\alpha}\left( r-1,n-r \right) F > F α ( r − 1 , n − r ) ,则拒绝原假设,认为因素A的r个水平效应有显著性差异。相反,若F < F α ( r − 1 , n − r ) F<F_{\alpha}\left( r-1,n-r \right) F < F α ( r − 1 , n − r ) ,则不拒绝原假设,认为因素A的r个水平没有明显的差异。可得出方差分析表:
2.3 两因素方差分析
单因素方差分析只是考虑一个分类型自变量对数值型因变量的影响。在对实际问题的研究中,有时需要考虑几个因素对试验结果的影响。
这里考虑无交互效应的两因素方差分析,假定两因素分别为A和B,其中因素A有a个不同的水平,记为A 1 , A 2 , ⋯ , A a A_1,A_2,\cdots ,A_a A 1 , A 2 , ⋯ , A a ,因素B有b个不同的水平,记为B 1 , B 2 , ⋯ , B b B_1,B_2,\cdots ,B_b B 1 , B 2 , ⋯ , B b 。因此根据单因素方差分析模型,可以得出无交互效应的两因素方差分析为:
{ y i j = μ + α i + β j + e i j i = 1 , 2 , ⋯ , a ; j = 1 , 2 , ⋯ , b e i j N ( 0 , σ 2 ) , 且相互独立 ∑ i = 1 a α i = 0 , ∑ j = 1 b β j = 0
\left\{ \begin{array}{l}
y_{ij}=\mu +\alpha _i+\beta _j+e_{ij}\ \ \ \ i=1,2,\cdots ,a\ ;\ j=1,2,\cdots ,b\\
\\
e_{ij}~N\left( 0,\sigma ^2 \right) \ \ ,\ \text{且相互独立}\\
\\
\sum_{i=1}^a{\alpha _i}=0\ \ ,\ \ \sum_{j=1}^b{\beta _j}=0\\
\end{array} \right.
⎩ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎧ y i j = μ + α i + β j + e i j i = 1 , 2 , ⋯ , a ; j = 1 , 2 , ⋯ , b e i j N ( 0 , σ 2 ) , 且相互独立 ∑ i = 1 a α i = 0 , ∑ j = 1 b β j = 0
其中μ为总平均,α i α_i α i 为因素A的水平A i A_i A i 的效应,β j β_j β j 为因素B的水平B j B_j B j 的效应,e i j e_{ij} e i j 为随机误差。
考察因素A或B各水平对指标的影响有无显著的差异,可以归结为对假设
H 1 : α 1 = α 2 = ⋯ = α a = 0
H_1\text{:}\alpha _1=\alpha _2=\cdots =\alpha _a=0
H 1 : α 1 = α 2 = ⋯ = α a = 0
或H 2 : β 1 = β 2 = ⋯ = β b = 0
H_2\text{:}\beta _1=\beta _2=\cdots =\beta _b=0
H 2 : β 1 = β 2 = ⋯ = β b = 0
因此和单因素方差分析模型一样,可构造如下检验统计量:
总平方和:S S T = ∑ i = 1 a ∑ j = 1 b ( y i j − y ˉ ) 2 SS_T=\sum_{i=1}^a{\sum_{j=1}^b{\left( y_{ij}-\bar{y} \right) ^2}} S S T = ∑ i = 1 a ∑ j = 1 b ( y i j − y ˉ ) 2 ,自由度ab-1
因素A的平方和:S S A = b ∑ i = 1 a ( y ˉ i ⋅ − y ˉ ) 2 SS_A=b\sum_{i=1}^a{\left( \bar{y}_{i\cdot}-\bar{y} \right) ^2} S S A = b ∑ i = 1 a ( y ˉ i ⋅ − y ˉ ) 2 ,自由度为a-1
因素B的平方和:S S B = a ∑ j = 1 b ( y ˉ ⋅ j − y ˉ ) 2 SS_B=a\sum_{j=1}^b{\left( \bar{y}_{\cdot j}-\bar{y} \right) ^2} S S B = a ∑ j = 1 b ( y ˉ ⋅ j − y ˉ ) 2 ,自由度b-1
误差平方和
因此总平方和的分解式:S S T = S S A + S S B + S S E SS_T=SS_A+SS_B+SS_E S S T = S S A + S S B + S S E
由相关证明可得,当H 1 H_1 H 1 成立时,
F A = S S A / ( a − 1 ) S S E / ( a − 1 ) ( b − 1 ) F α ( a − 1 , ( a − 1 ) ( b − 1 ) )
F_A=\frac{SS_A/\left( a-1 \right)}{SS_E/\left( a-1 \right) \left( b-1 \right)}~F_{\alpha}\left( a-1,\left( a-1 \right) \left( b-1 \right) \right)
F A = S S E / ( a − 1 ) ( b − 1 ) S S A / ( a − 1 ) F α ( a − 1 , ( a − 1 ) ( b − 1 ) )
对于给定的显著性水平α,当F A > F α ( a − 1 , ( a − 1 ) ( b − 1 ) ) F_A>F_{\alpha}\left( a-1,\left( a-1 \right) \left( b-1 \right) \right) F A > F α ( a − 1 , ( a − 1 ) ( b − 1 ) ) 时,拒绝原假设,认为因素A的a个水平的效应有显著性差异。
同理,当H 2 H_2 H 2 成立时
F B = S S B / ( b − 1 ) S S E / ( a − 1 ) ( b − 1 ) F α ( b − 1 , ( a − 1 ) ( b − 1 ) )
F_B=\frac{SS_B/\left( b-1 \right)}{SS_E/\left( a-1 \right) \left( b-1 \right)}~F_{\alpha}\left( b-1,\left( a-1 \right) \left( b-1 \right) \right)
F B = S S E / ( a − 1 ) ( b − 1 ) S S B / ( b − 1 ) F α ( b − 1 , ( a − 1 ) ( b − 1 ) )
同样的方法检验H 2 H_2 H 2 。因此对于无交互效应的两因素方差分析得出方差分析表:
3. 协方差分析模型
协方差模型是一种特殊的线性模型,它实际上是线性回归模型和方差模型的混合,模型中的自变量既有属性因子又有数量因子,设计矩阵由两部分组成,一部分元素只能取0或1,而另一部分的元素可取连续值,可以看作由方差分析模型和线性回归模型的设计矩阵组拼而成。
协方差分析模型虽然是线性回归模型和方差分析模型的一种“混合”,但是对这两部分并不同等看待,回归部分只是因为某些量不能回归分析部分只是因为某些量不能完全人为控制而不得已引入的。因此协方差模型最主要的还是方差分析部分,因而这种模型的统计分析—协方差分析,基本上具有方差分析的特色,即有关效应存在性的检验占有突出地位,与方差分析比较起来,在协方差分析中并没有引进任何新的概念,实际上它只是一种计算方法,旨在利用一般方差分析的结果很简便地作协方差分析模型的统计分析。
3.1 模型结构
一般的协方差分析模型为
{ Y = X β + Z γ + e H β = 0 e N ( 0 , σ 2 )
\left\{ \begin{array}{l}
Y=X\beta +Z\gamma +e\\
\\
H\beta =0\\
\\
e~N\left( 0,\sigma ^2 \right)\\
\end{array} \right.
⎩ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎧ Y = X β + Z γ + e H β = 0 e N ( 0 , σ 2 )
其中
Y = ( y 1 y 2 ⋮ y n ) X = ( x 11 x 12 ⋯ x 1 p x 21 x 22 ⋯ x 2 p ⋮ ⋮ ⋮ ⋮ x n 1 x n 2 ⋯ x n p ) Z = ( z 11 z 12 ⋯ z 1 k z 21 z 22 ⋯ z 2 k ⋮ ⋮ ⋮ ⋮ z n 1 z n 2 ⋯ z n k )
Y=\left( \begin{array}{c}
y_1\\
y_2\\
\vdots\\
y_n\\
\end{array} \right) \ \ \ X=\left( \begin{matrix}
x_{11}& x_{12}& \cdots& x_{1p}\\
x_{21}& x_{22}& \cdots& x_{2p}\\
\vdots& \vdots& \vdots& \vdots\\
x_{n1}& x_{n2}& \cdots& x_{np}\\
\end{matrix} \right) \ \ Z=\left( \begin{matrix}
z_{11}& z_{12}& \cdots& z_{1k}\\
z_{21}& z_{22}& \cdots& z_{2k}\\
\vdots& \vdots& \vdots& \vdots\\
z_{n1}& z_{n2}& \cdots& z_{nk}\\
\end{matrix} \right)
Y = ⎝ ⎜ ⎜ ⎜ ⎛ y 1 y 2 ⋮ y n ⎠ ⎟ ⎟ ⎟ ⎞ X = ⎝ ⎜ ⎜ ⎜ ⎛ x 1 1 x 2 1 ⋮ x n 1 x 1 2 x 2 2 ⋮ x n 2 ⋯ ⋯ ⋮ ⋯ x 1 p x 2 p ⋮ x n p ⎠ ⎟ ⎟ ⎟ ⎞ Z = ⎝ ⎜ ⎜ ⎜ ⎛ z 1 1 z 2 1 ⋮ z n 1 z 1 2 z 2 2 ⋮ z n 2 ⋯ ⋯ ⋮ ⋯ z 1 k z 2 k ⋮ z n k ⎠ ⎟ ⎟ ⎟ ⎞
β = ( β 1 β 2 ⋮ β p ) γ = ( γ 1 γ 2 ⋮ γ k ) e = ( e 1 e 2 ⋮ e n )
\beta =\left( \begin{array}{c}
\beta _1\\
\beta _2\\
\vdots\\
\beta _p\\
\end{array} \right) \ \ \gamma =\left( \begin{array}{c}
\gamma _1\\
\gamma _2\\
\vdots\\
\gamma _k\\
\end{array} \right) \ \ e=\left( \begin{array}{c}
e_1\\
e_2\\
\vdots\\
e_n\\
\end{array} \right)
β = ⎝ ⎜ ⎜ ⎜ ⎛ β 1 β 2 ⋮ β p ⎠ ⎟ ⎟ ⎟ ⎞ γ = ⎝ ⎜ ⎜ ⎜ ⎛ γ 1 γ 2 ⋮ γ k ⎠ ⎟ ⎟ ⎟ ⎞ e = ⎝ ⎜ ⎜ ⎜ ⎛ e 1 e 2 ⋮ e n ⎠ ⎟ ⎟ ⎟ ⎞
其中Y n × 1 Y_{n\times 1} Y n × 1 为要考察的某项指标;X为因素A的设计矩阵,其元素x i j x_{ij} x i j 皆为0或1,并且Xβ代表模型的方差部分;Z为协变量矩阵,其元素z_ij可取任何实数值,并且Zγ代表模型的回归部分; β为因素效应向量;γ为待估计的回归系数。
3.2 参数估计
协方差分析模型中参数的最小二乘估计可以由以下正则方程得到,正则方程为:
( X Z ) T ( X Z ) ( β γ ) = ( X Z ) T Y
\left( X\ \ Z \right) ^T\left( X\ \ Z \right) \left( \begin{array}{c}
\beta\\
\gamma\\
\end{array} \right) =\left( X\ \ Z \right) ^TY
( X Z ) T ( X Z ) ( β γ ) = ( X Z ) T Y
加上约束条件,可写成
{ X T X β + X T Z γ = X T Y Z T X β + Z T Z γ = Z T Y H β = 0
\left\{ \begin{array}{l}
X^TX\beta +X^TZ\gamma =X^TY\\
\\
Z^TX\beta +Z^TZ\gamma =Z^TY\\
\\
H\beta =0\\
\end{array} \right.
⎩ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎧ X T X β + X T Z γ = X T Y Z T X β + Z T Z γ = Z T Y H β = 0
令 γ=0 时,协方差分析模型转化为方差分析模型Y = X β + e , e ∼ N ( 0 , σ 2 I n ) Y=X\beta +e\ ,\ e\sim N\left( 0,\sigma ^2I_n \right) Y = X β + e , e ∼ N ( 0 , σ 2 I n ) ,对应的正规方程组
{ X T X β = X T Y H β = 0
\left\{ \begin{array}{l}
X^TX\beta =X^TY\\
\\
H\beta =0\\
\end{array} \right.
⎩ ⎨ ⎧ X T X β = X T Y H β = 0
的解是Y的线性函数,记为θ ^ 0 = A Y \hat{\theta}_0=AY θ ^ 0 = A Y ,因此根据上述等式关系,解得
β ^ = A ( Y − Z γ ) = A Y − A ( Z 1 γ 1 + Z 2 γ 2 + ⋯ + Z k γ k )
\hat{\beta}=A\left( Y-Z\gamma \right) =AY-A\left( Z_1\gamma _1+Z_2\gamma _2+\cdots +Z_k\gamma _k \right)
β ^ = A ( Y − Z γ ) = A Y − A ( Z 1 γ 1 + Z 2 γ 2 + ⋯ + Z k γ k )
= A Y − A Z 1 γ 1 − A Z 2 γ 2 − ⋯ − A Z k γ k
=AY-AZ_1\gamma _1-AZ_2\gamma _2-\cdots -AZ_k\gamma _k
= A Y − A Z 1 γ 1 − A Z 2 γ 2 − ⋯ − A Z k γ k
这里Z j Z_j Z j 是Z的第j列,γ j γ_j γ j 是γ的第j个分量。另外,可以把A Z j AZ_j A Z j 看成是指标为Z j Z_j Z j 的对应的方差分析模型中各种效应的估计,即可记
{ Z j = X β + e H β = 0 e N n ( 0 , σ 2 I n )
\left\{ \begin{array}{l}
Z_j=X\beta +e\\
\\
H\beta =0\\
\\
e~N_n\left( 0,\sigma ^2I_n \right)\\
\end{array} \right.
⎩ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎧ Z j = X β + e H β = 0 e N n ( 0 , σ 2 I n )
中β的估计为
θ ^ j = A Z j , j = 1 , 2 , ⋯ , k
\hat{\theta}_j=AZ_j\ ,\ j=1,2,\cdots ,k
θ ^ j = A Z j , j = 1 , 2 , ⋯ , k
θ ^ j \hat{\theta}_j θ ^ j 满足
{ X T X θ j = X T Z j H θ j = 0
\left\{ \begin{array}{l}
X^TX\theta _j=X^TZ_j\\
\\
H\theta _j=0\\
\end{array} \right.
⎩ ⎨ ⎧ X T X θ j = X T Z j H θ j = 0
只要求得γ的估计后,便可得
β ^ = θ ^ 0 − θ ^ 1 γ ^ 1 − ⋯ − θ ^ k γ ^ k
\hat{\beta}=\hat{\theta}_0-\hat{\theta}_1\hat{\gamma}_1-\cdots -\hat{\theta}_k\hat{\gamma}_k
β ^ = θ ^ 0 − θ ^ 1 γ ^ 1 − ⋯ − θ ^ k γ ^ k
为求γ的估计需要利用
Z i T X β + Z i T ( Z 1 γ 1 + ⋯ + Z k γ k ) = Z i T Y , i = 1 , 2 , ⋯ , k
Z_i^TX\beta +Z_i^T\left( Z_1\gamma _1+\cdots +Z_k\gamma _k \right) =Z_i^TY\ \ \ ,\ i=1,2,\cdots ,k
Z i T X β + Z i T ( Z 1 γ 1 + ⋯ + Z k γ k ) = Z i T Y , i = 1 , 2 , ⋯ , k
3.3 假设检验
欲检验:
H 0 : M ( β γ ) = 0
H_0\text{:}M\left( \begin{array}{c}
\beta\\
\gamma\\
\end{array} \right) =0
H 0 : M ( β γ ) = 0
其检验统计量为
F = ( R 1 2 − R 0 2 ) / ( f 1 − f 0 ) R 0 2 / F 0
F=\frac{\left( R_1^2-R_0^2 \right) /\left( f_1-f_0 \right)}{R_0^2/F_0}
F = R 0 2 / F 0 ( R 1 2 − R 0 2 ) / ( f 1 − f 0 )
其中
{ R 1 2 = Y T [ Y − X ( M ) θ ^ 0 ( M ) ] − Z 1 T ( M ) [ Y − X ( M ) θ ^ 0 ( M ) ∣ γ ^ 1 ( M ) ] − Z k T ( M ) [ Y − X ( M ) θ ^ 0 ( M ) ∣ γ ^ k ( M ) ] R 0 2 = Y T [ Y − X θ ^ 0 ] − Z 1 T [ Y − X θ ^ 0 ] γ ^ 1 − ⋯ − Z k T [ Y − X θ ^ k ] γ ^ k f 0 = n − R ( X ) − R ( Z ) f 1 = n − R ( X ( M ) ) − R ( Z ( M ) )
\left\{ \begin{array}{l}
R_1^2=Y^T\left[ Y-X\left( M \right) \hat{\theta}_0\left( M \right) \right] -Z_1^T\left( M \right) \left[ Y-X\left( M \right) \hat{\theta}_0\left( M \right) |\hat{\gamma}_1\left( M \right) \right]\\
\ \ \ \ \ -Z_k^T\left( M \right) \left[ Y-X\left( M \right) \hat{\theta}_0\left( M \right) |\hat{\gamma}_k\left( M \right) \right]\\
\\
R_0^2=Y^T\left[ Y-X\hat{\theta}_0 \right] -Z_1^T\left[ Y-X\hat{\theta}_0 \right] \hat{\gamma}_1-\cdots -Z_k^T\left[ Y-X\hat{\theta}_k \right] \hat{\gamma}_k\\
\\
f_0=n-R\left( X \right) -R\left( Z \right)\\
\\
f_1=n-R\left( X\left( M \right) \right) -R\left( Z\left( M \right) \right)\\
\end{array} \right.
⎩ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎧ R 1 2 = Y T [ Y − X ( M ) θ ^ 0 ( M ) ] − Z 1 T ( M ) [ Y − X ( M ) θ ^ 0 ( M ) ∣ γ ^ 1 ( M ) ] − Z k T ( M ) [ Y − X ( M ) θ ^ 0 ( M ) ∣ γ ^ k ( M ) ] R 0 2 = Y T [ Y − X θ ^ 0 ] − Z 1 T [ Y − X θ ^ 0 ] γ ^ 1 − ⋯ − Z k T [ Y − X θ ^ k ] γ ^ k f 0 = n − R ( X ) − R ( Z ) f 1 = n − R ( X ( M ) ) − R ( Z ( M ) )
在原假设为真时,F ∼ F ( f 1 − f 0 , f 0 ) F\sim F\left( f_1-f_0,f_0 \right) F ∼ F ( f 1 − f 0 , f 0 ) ,在给定的显著性水平下,当F > F α ( f 1 − f 0 , f 0 ) F>F_{\alpha}\left( f_1-f_0,f_0 \right) F > F α ( f 1 − f 0 , f 0 ) 时,拒绝原假设。
4. 混合效应模型
混合效应模型也称为方差分量模型,混合效应模型的一般形式为:
y = X β + U ξ + e
y=X\beta +U\xi +e
y = X β + U ξ + e
其中y为n×1观测向量,X为n×p已知设计矩阵,β为p×1非随机的参数向量,称为固定效应,U为n×q i q_i q i 随机效应变量构造的设计矩阵, ξ i \xi _i ξ i 为q i q_i q i ×1随机向量,称为随机效应,一般有如下假设
E ( ξ i ) = 0 , C o v ( ξ i ) = σ i 2 I q i , C o v ( ξ i , ξ i ) = 0 , i ≠ j
E\left( \xi _i \right) =0\text{,}Cov\left( \xi _i \right) =\sigma _i^2I_{q_i}\text{,}Cov\left( \xi _i,\xi _i \right) =0,i\ne j
E ( ξ i ) = 0 , C o v ( ξ i ) = σ i 2 I q i , C o v ( ξ i , ξ i ) = 0 , i = j
于是
E ( y ) = X β , C o v ( y ) = ∑ i = 1 k σ i 2 U i U i T
E\left( y \right) =X\beta \text{,}Cov\left( y \right) =\sum_{i=1}^k{\sigma _i^2U_iU_i^T}
E ( y ) = X β , C o v ( y ) = i = 1 ∑ k σ i 2 U i U i T
σ i 2 σ_i^2 σ i 2 称为方差分量。
5. 面板数据模型
面板数据(panel data)也称平行数据或时间序列截面数据,是混合数据(pool data)中一种特殊类型的数据,它是指在时间序列上不同时间节点取相应的截面,在这些截面上同时选取样本观测值所构成的样本数据,面板数据从横截面上看,是由若干个体在某一时刻构成的截面观测值;从纵剖面上看是一个时间序列。
5.1 面板数据模型的基本形式
面板数据模型的基本形式为:
y i t = a i + x ′ i t b i + e i t , i = 1 , 2 , ⋯ , N ; t = 1 , 2 , ⋯ , T
y_{it}=a_i+\boldsymbol{x'}_{it}\boldsymbol{b}_i+e_{it}\ \ \ ,\ \ i=1,2,\cdots ,N\ ;\ t=1,2,\cdots ,T
y i t = a i + x ′ i t b i + e i t , i = 1 , 2 , ⋯ , N ; t = 1 , 2 , ⋯ , T
其中y i t y_{it} y i t 为时间t横截面上第i个被解释变量的数值;x i t x_{it} x i t 为k×1维解释变量向量;b i t b_{it} b i t 为对应于回归向量x i t x_{it} x i t 的k×1维系数向量;a i a_i a i 为常数项或截距项,代表横截面第i个个体的影响;e i t e_{it} e i t 为随机误差项,满足相互独立、零均值、同方差为σ 2 σ^2 σ 2 的假设;N表示同一截面拥有个体的个数;T表示每个截面个体的观测时期总数。在成员截面上,该模型共含有N个截面成员方程,在时间截面上,该模型共含有T个时间截面的方程。
面板数据模型划分为以下3中类型:
(1)无个体影响的不变系数模型:a i = a j = a , b i = b j = b a_i=a_j=a\ ,\ b_i=b_j=b a i = a j = a , b i = b j = b
y i t = a + x ′ i t b + e i t , i = 1 , 2 , ⋯ , N ; t = 1 , 2 , ⋯ , T
y_{it}=a+\boldsymbol{x'}_{it}\boldsymbol{b}+e_{it}\ \ \ ,\ \ i=1,2,\cdots ,N\ ;\ t=1,2,\cdots ,T
y i t = a + x ′ i t b + e i t , i = 1 , 2 , ⋯ , N ; t = 1 , 2 , ⋯ , T
在该模型中,假设在横截面上既无个体影响也没有结构变化,可将模型简单地视为是横截面数据的堆积的模型。这种模型与一般的回归模型无本质区别,只要随机扰动项服从经典基本假设条件,就可以用OLS法对参数进行估计,该模型也称为联合回归模型。
(2)变截距模型:a i ≠ a j , b i = b j = b a_i\ne a_j\ ,\ b_i=b_j=b a i = a j , b i = b j = b
y i t = a i + x ′ i t b + e i t , i = 1 , 2 , ⋯ , N ; t = 1 , 2 , ⋯ , T
y_{it}=a_i+\boldsymbol{x'}_{it}\boldsymbol{b}+e_{it}\ \ \ ,\ \ i=1,2,\cdots ,N\ ;\ t=1,2,\cdots ,T
y i t = a i + x ′ i t b + e i t , i = 1 , 2 , ⋯ , N ; t = 1 , 2 , ⋯ , T
在该模型中,假设在横截面上存在个体影响,不存在结构性变化,个体影响可以用截距项的差别来说明,即模型中各截面方程的截距项不同,系数向量相同,故通称为变截距模型。
(3)变系数模型:a i ≠ a j , b i ≠ b j a_i\ne a_j,\ b_i\ne b_j a i = a j , b i = b j
y i t = a i + x ′ i t b i + e i t , i = 1 , 2 , ⋯ , N ; t = 1 , 2 , ⋯ , T
y_{it}=a_i+\boldsymbol{x'}_{it}\boldsymbol{b}_i+e_{it}\ \ \ ,\ \ i=1,2,\cdots ,N\ ;\ t=1,2,\cdots ,T
y i t = a i + x ′ i t b i + e i t , i = 1 , 2 , ⋯ , N ; t = 1 , 2 , ⋯ , T
在该模型中,假设在横截面上既存在个体影响,又存在结构变化,即在允许个体影响由变化的截距项来说明,同时还允许由系数向量依个体成员的不同而变化,用以说明个体成员之间的结构变化,通称为变系数模型或无约束模型。
根据模型中个体影响的不同形式,上述三个模型可以又分成固定效应模型和随机效应模型。如果模型中的个体影响a i 为 a_i为 a i 为 确定性变量,即模型中省略因素对个体差异的影响是固定不变的,则模型为固定效应模型。如果a i a_i a i 为随机变量,即模型中省略对不同个体的影响是随机的,则模型为随机效应模型。
5.2 面板数据模型检验
建立面板数据模型首先要检验被解释变量y i t y_{it} y i t 的参数a i a_i a i 和b i b_i b i 是否对所有个体样本点和时间都是常数,即检验样本数据究竟术语上述3种情况的哪一种形式,从而避免模型设定的偏差,改进参数估计的有效性,主要检验如下两个假设:
H 1 : b 1 = b 2 = ⋯ = b N ↔ H 2 : a 1 = a 2 = ⋯ = a N ; b 1 = b 2 = ⋯ = b N
H_1\text{:}b_1=b_2=\cdots =b_N\leftrightarrow H_2\text{:}a_1=a_2=\cdots =a_N\ ;\ b_1=b_2=\cdots =b_N
H 1 : b 1 = b 2 = ⋯ = b N ↔ H 2 : a 1 = a 2 = ⋯ = a N ; b 1 = b 2 = ⋯ = b N
如果接受假设H 2 H_2 H 2 ,则可以认为样本数据符合无个体影响的不变系数模型。如果拒绝假设H 2 H_2 H 2 ,则需检验假设H 1 H_1 H 1 ,如果接受H 1 H_1 H 1 ,则认为样本数据符合变截距、不变系数模型;反之,则认为样本数据符合变系数模型。
对应假设H 1 H_1 H 1 和H 2 H_2 H 2 ,在检验的过程中构造的检验统计量分别为:
F 1 = ( S 2 − S 1 ) / [ ( N − 1 ) k ] S 1 / [ N T − N ( k + 1 ) ] F [ ( N − 1 ) k , N ( T − k − 1 ) ]
F_1=\frac{\left( S_2-S_1 \right) /\left[ \left( N-1 \right) k \right]}{S_1/\left[ NT-N\left( k+1 \right) \right]}~F\left[ \left( N-1 \right) k,N\left( T-k-1 \right) \right]
F 1 = S 1 / [ N T − N ( k + 1 ) ] ( S 2 − S 1 ) / [ ( N − 1 ) k ] F [ ( N − 1 ) k , N ( T − k − 1 ) ]
F 2 = ( S 3 − S 1 ) / [ ( N − 1 ) ( k + 1 ) ] S 1 / [ N T − N ( k + 1 ) ] F [ ( N − 1 ) ( k + 1 ) , N ( T − k − 1 ) ]
F_2=\frac{\left( S_3-S_1 \right) /\left[ \left( N-1 \right) \left( k+1 \right) \right]}{S_1/\left[ NT-N\left( k+1 \right) \right]}~F\left[ \left( N-1 \right) \left( k+1 \right) ,N\left( T-k-1 \right) \right]
F 2 = S 1 / [ N T − N ( k + 1 ) ] ( S 3 − S 1 ) / [ ( N − 1 ) ( k + 1 ) ] F [ ( N − 1 ) ( k + 1 ) , N ( T − k − 1 ) ]
其中,S 1 S_1 S 1 、S 2 S_2 S 2 、S 3 S_3 S 3 分别为变系数模型、变截距模型、无个体影响的不变系数模型的残差平方和;N为截面样本点的个数;T为时序期数;k为待估计参数(不含截距项)的个数。
在假设H 2 H_2 H 2 成立时,若计算所得的统计量F 2 F_2 F 2 的值小于给定显著性水平下的临界值,则接受假设H 2 H_2 H 2 ,采用无个体影响的不变系数模型,否则继续检验H 1 H_1 H 1 。即当H 1 H_1 H 1 成立时,若计算所得的统计量F 1 F_1 F 1 的值小于给定显著性水平下的临界值,则接受假设H 1 H_1 H 1 ,采用变截距模型,否则采用变系数模型。
至于采用固定效应模型还是随机效应模型,可以根据所研究问题的特点来决定。如果仅对样本本身的效应进行分析,则使用固定效应模型。如果是用样本推断总体效应,则使用随机效应模型。另外,也可以使用Hausman检验进行识别。