《统计学》笔记:第11章 一元线性回归

变量之间的关系可以分为两种类型,即函数关系和相关关系。

函数关系 functional relationship

函数关系是一一对应的确定关系。设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,其中x称为自变量,y称为因变量。

相关关系 correlation

由于影响一个变量的因素非常多,造成了变量之间关系的不确定性。变量之间存在的不确定的数量关系,称为相关关系。相关关系具有如下特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。对这种关系不确定的变量显然不能用函数关系进行描述,但也不是无任何规律可循。通过对大量数据的观察与研究,就会发现许多变量之间确实存在着一定的客观规律。

散点图 scatter diagram

对于两个bianliangx和y,通过观察或实验可以得到若干组数据,记为(xi,yi)(i=1,2,…,n)。用座标的横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在座标系中用一个点表示,n组数据在座标系中形成的n个点称为散点,由座标及其散点形成的二维数据图称为散点图。散点图是描述变量之间关系的一种直观方法,从中可以大体上看出变量之间的关系形态及关系强度。

相关系数 correlation coefficient

相关系数是根据样本数据计算的量度两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;若根据样本数据计算的,则称为样本相关系数,记为r。

线性相关系数 linear correlation coefficient / Pearson相关系数 Pearson’s correlation coefficient

使用样本相关系数的计算公式计算的相关系数即为线性相关系数【批:线性相关系数是双变量的相关系数,用以衡量两个变量之间的相关程度】,其公式为:
r=nxyxynx2(x)2ny2(y)2 r=\frac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\cdot{\sqrt{n\sum{y^2}-(\sum{y})^2}}}
回归分析 regression analysis

(相关分析的目的在于测量变量之间的关系强度,它所使用的测量工具就是相关系数。)回归分析侧重于考量变量之间的数量关系,并通过一定的数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。具体来说,回归分析主要解决以下几个方面的问题:

  1. 从一组样本数据出发,确定变量之间的数学关系式。
  2. 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的。
  3. 利用所求的关系式,根据一个或几个变量的取值来估计或预测两一个特定变量的取值,并给出这种估计或预测的可靠程度。

因变量 dependent variable

在回归分析中,被预测或被解释的变量称为因变量,用y表示。

自变量 independent variable

在回归分析中,用来预测或解释因变量的一个或多个变量称为自变量,用x表示。

回归模型 regression model

对于具有线性关系的两个变量,可以用一个线性方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项ε的方程称为回归模型。只涉及一个自变量的一元线性回归模型可表示为:

y=β0+β1x+ε

上式称为理论回归模型,对这一模型,有以下几个主要假定:

  1. 因变量y与自变量x之间具有线性关系。【批:因为一元线性回归模型只能用来预测两个变量之间的线性相关关系】
  2. 在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。【批:即任意给定的x值都是可以取到的;对于任意一个给定的x值,y的取值都对应着一个分布】
  3. 误差项ε是一个期望值为0的随机变量,即E(ε)=0。【批:如果ε的期望值不为0的话,则说明该回归模型不是无偏估计,即该模型存在偏差】
  4. 对于所有的x值,ε的方差σ2都相同。【批:这是模型的一个假定,在计算误差项ε的标准差σ的估计(估计标准误差)时,也是在依据假定的前提下计算的;当不同的x值对应的误差项ε的方差σ2各不相同时,我们称之为非常数方差】
  5. 误差项ε是一个服从正态分布的随机变量,且独立,即ε~N(0,σ^2)。

回归方程 regression equation

根据回归模型中的假定,ε的期望值等于0,因此y的期望值E(y)=β0+β1x,也就是说,y的期望值是x的线性函数。描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。一元线性回归方程的形式为:
E(y)=β0+β1x E(y)=\beta_0+\beta_1x
一元线性回归方程的图示是一条直线,因此也称为直线回归方程。其中β0是回归直线在y轴上的截距,是当x=0时y的期望值;β1是直线的斜率,它表示x每变动一个单位时,y的平均变动值。

最小二乘法 / 最小平方法 method of least squares

高斯提出用最小化图中垂直方向的离差平方和来估计参数β0和β1,根据这一方法确定模型参数β0和β1的方法称为最小二乘法,它是通过使因变量的观测值yi与yi的估计值之间的离差平方和达到最小来估计β0和β1的方法。

统计学基础笔记:概念梳理11

拟合优度 goodness of fit

回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。

判定系数 coefficient of determination

判定系数是对估计的回归方程拟合优度的度量,为回归平方和占总平方和的比例,记为R^2,其计算公式为:
R2=SSRSST=(yi^y)2(yiy)2=1(yiyi^)2(yiy)2 R^2=\frac{SSR}{SST}=\frac{\sum({\hat{y_i}-\overline{y})^2}}{\sum{(y_i-\overline{y})^2}}=1-\frac{\sum({y_i-\hat{y_i})^2}}{\sum{(y_i-\overline{y})^2}}
估计标准误差 standard error of estimate

估计标准误差是衡量各实际观测点在直接周围的散布状况的一个统计量,它是均方残差(MSE)的平方根,用se来表示,其计算公式为:
se=(yiyi^)2n2=SSEn2=MSE s_e=\sqrt{\frac{\sum{(y_i-\hat{y_i})^2}}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}
预测 predict

回归模型经过各种检验并标明符合规定的要求后,就可以利用它来预测因变量了。所谓预测是指通过自变量x的取值来预测因变量y的取值。

点估计 point estimate

【此处为在回归分析中的定义,其他参见:第7章 参数估计】利用估计的回归方程,对于x的一个特定值x0,求出y的一个估计值就是点估计。点估计可分为两种:一是平均值的点估计,二是个别之的点估计。

区间估计 point estimate

【此处为在回归分析中的定义,其他参见:第7章 参数估计】利用估计的回归方程,对于x的一个特定值x0,求出y的一个估计值的区间就是区间估计。区间估计也有两种类型,一是置信区间估计,二是预测区间估计。

置信区间估计 confidence interval estimate

(回归分析中的)置信区间估计是对x的一个给定值x0,求出y的平均值的区间估计,这一区间称为置信区间。

预测区间估计 prediction interval estimate

(回归分析中的)预测区间估计是对x的一个给定值x0,求出y的一个个别值的区间估计,这一区间称为预测区间。

预测区间 prediction interval

残差分析 residual analysis

残差分析就是通过残差所提供的信息,分析出数据的可靠性周期性和其他干扰,用于分析模型的假定正确与否的方法。

残差 residual

残差是因变量的观测值yi与根据估计的回归方程求出的预测值之差,用e表示。它反映了用估计的回归方程去预测yi而引起的误差。

标准化误差 / Pearnson残差 / 半学生化残差 standardized residual / semi-studentized residuals

对ε正态性假定的检验,也可以通过对标准化残差的分析来完成。标准化残差是残差除以它的标准差后得到的数值,用ze表示。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章