【多元统计与数据分析】之2019第4讲:回归分析

0.来源

本学期上了《多元统计与数据分析》的课,因为基础缺失较大,因此利用博客记录的方式对课件内容以及课后作业等内容做一些复述和思考。
备注1: 在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
备注2. 回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
两个备注来自百度百科-回归分析

1.课件目录

(4.1)多元线性回归
(4.1.1)多元回归方程
(4.1.2)多元回归的一般步骤
(4.1.3)回归方程评价
(4.2)Logistics回归
(4.3)上机实现

2.课件内容复述

(4.1)多元线性回归

第一个问题:回归分析的主要内容

a).建立模型: 从一组数据出发,确定一些变量之间的定量关系式。即建立数学模型,并且估计其中的未知参数。常用的估计参数的方法如最小二乘法。
b).检验模型: 对定量关系式的可信程度进行检验,即检验回归方程是否成立。
c).改进模型: 在多个自变量影响一个因变量的场景中,需要判断哪些自变量对于因变量的影响是显著的。即将影响不显著的自变量剔除,将影响显著的自变量纳入模型中。
d).使用模型: 利用定量关系式对过程进行预测或控制。

第二个问题:一元回归和多元回归直观表达
Y,X --> 一元回归(直线回归) ;
Y,X1,X2,X3,X4,…Xm --> 多元回归。

第三个问题:根据因变量类型分类回归模型
• Y 为定量变量—— Linear Regression
• Y 为二项分类变量—— Binary Logistic Regression(二项分布、泊松分布、负二项分布……)
• Y 为多项分类变量—— Multinomial Logistic Regression
• Y 为有序分类变量—— Ordinal Logistic Regression
• Y 为生存时间与生存结局 ——Cox Regression

结论:分析一个因变量和多个自变量之间的线性关系就是多元线性回归。根据备注中的内容,我们得知:多元线性回归中的多元指的是多个自变量,线性指的是因变量和自变量的关系是线性关系,一个因变量表明是简单回归分析。

(4.1.1)多元回归方程(多元回归模型)

  • 由偏回归系数乘上自变量,加上常数项和残差。其中,残差e为去除m个自变量对因变量影响后的随机误差,E(e)= 0。
  • 由样本估计多元回归方程,最常用的方法是最小二乘法。
  • 多元线性回归模型的适用条件为:LINE。
  • Line,即线性(Linear)、独立性(O)、正态性和等方差。
    (4.1.2)多元回归分析的步骤
  • 先总后分。
  • 用各变量数据建立回归方程。
  • 对总方程进行假设检验。
  • 当总方程有显著性意义,对偏回归系数进行假设检验,若不通过,剔除该变量后重新建立多元回归方程。
  • 重复上述步骤,直到余下的偏回归系数都具有统计意义。
  • 得到最优回归方程。
  • 回归分析第14、15、16页PPT,F检验不是很能理解。且平方和的分解指的是什么?…
  • 偏回归系数剔除时,每次只剔除关系最弱的变量(t的绝对值越大,或sig值越小,说明该自变量所起作用越大)。
    (4.1.3)回归方程的评价
  • 确定系数R平方;
  • 复相关系数R;
  • 校正确定系数R平方a;
    (4.1.4)各自变量的评价
    (4.1.5)自变量的筛选
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章