【多元統計與數據分析】之2019第4講:迴歸分析

0.來源

本學期上了《多元統計與數據分析》的課,因爲基礎缺失較大,因此利用博客記錄的方式對課件內容以及課後作業等內容做一些複述和思考。
備註1: 在統計學中,迴歸分析(regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法。
備註2. 迴歸分析按照涉及的變量的多少,分爲一元迴歸和多元迴歸分析;按照因變量的多少,可分爲簡單迴歸分析和多重回歸分析;按照自變量和因變量之間的關係類型,可分爲線性迴歸分析和非線性迴歸分析。
兩個備註來自百度百科-迴歸分析

1.課件目錄

(4.1)多元線性迴歸
(4.1.1)多元迴歸方程
(4.1.2)多元迴歸的一般步驟
(4.1.3)迴歸方程評價
(4.2)Logistics迴歸
(4.3)上機實現

2.課件內容複述

(4.1)多元線性迴歸

第一個問題:迴歸分析的主要內容

a).建立模型: 從一組數據出發,確定一些變量之間的定量關係式。即建立數學模型,並且估計其中的未知參數。常用的估計參數的方法如最小二乘法。
b).檢驗模型: 對定量關係式的可信程度進行檢驗,即檢驗迴歸方程是否成立。
c).改進模型: 在多個自變量影響一個因變量的場景中,需要判斷哪些自變量對於因變量的影響是顯著的。即將影響不顯著的自變量剔除,將影響顯著的自變量納入模型中。
d).使用模型: 利用定量關係式對過程進行預測或控制。

第二個問題:一元迴歸和多元迴歸直觀表達
Y,X --> 一元迴歸(直線迴歸) ;
Y,X1,X2,X3,X4,…Xm --> 多元迴歸。

第三個問題:根據因變量類型分類迴歸模型
• Y 爲定量變量—— Linear Regression
• Y 爲二項分類變量—— Binary Logistic Regression(二項分佈、泊松分佈、負二項分佈……)
• Y 爲多項分類變量—— Multinomial Logistic Regression
• Y 爲有序分類變量—— Ordinal Logistic Regression
• Y 爲生存時間與生存結局 ——Cox Regression

結論:分析一個因變量和多個自變量之間的線性關係就是多元線性迴歸。根據備註中的內容,我們得知:多元線性迴歸中的多元指的是多個自變量,線性指的是因變量和自變量的關係是線性關係,一個因變量表明是簡單迴歸分析。

(4.1.1)多元迴歸方程(多元迴歸模型)

  • 由偏回歸係數乘上自變量,加上常數項和殘差。其中,殘差e爲去除m個自變量對因變量影響後的隨機誤差,E(e)= 0。
  • 由樣本估計多元迴歸方程,最常用的方法是最小二乘法。
  • 多元線性迴歸模型的適用條件爲:LINE。
  • Line,即線性(Linear)、獨立性(O)、正態性和等方差。
    (4.1.2)多元迴歸分析的步驟
  • 先總後分。
  • 用各變量數據建立迴歸方程。
  • 對總方程進行假設檢驗。
  • 當總方程有顯著性意義,對偏回歸係數進行假設檢驗,若不通過,剔除該變量後重新建立多元迴歸方程。
  • 重複上述步驟,直到餘下的偏回歸係數都具有統計意義。
  • 得到最優迴歸方程。
  • 迴歸分析第14、15、16頁PPT,F檢驗不是很能理解。且平方和的分解指的是什麼?…
  • 偏回歸係數剔除時,每次只剔除關係最弱的變量(t的絕對值越大,或sig值越小,說明該自變量所起作用越大)。
    (4.1.3)迴歸方程的評價
  • 確定係數R平方;
  • 複相關係數R;
  • 校正確定係數R平方a;
    (4.1.4)各自變量的評價
    (4.1.5)自變量的篩選
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章