7.1 簡單線性迴歸算法

原創

2020-02-25 23:58

前提介紹：

爲什麼需要統計量？

統計量：描述數據特徵

0.1 集中趨勢衡量

0.1.1均值（平均數，平均值）（mean）

{6, 2, 9, 1, 2}


(6 + 2 + 9 + 1 + 2) / 5 = 20 / 5 = 4


0.1.2中位數 （median）: 將數據中的各個數值按照大小順序排列，居於中間位置的變量

    0.1.2.1. 給數據排序：1， 2， 2， 6， 9
    0.1.2.2. 找出位置處於中間的變量：2
        當n爲基數的時候：直接取位置處於中間的變量
        當n爲偶數的時候，取中間兩個量的平均值


0.1.2衆數 （mode）：數據中出現次數最多的數

0.2

0.2.1. 離散程度衡量


    0.2.1.1方差（variance)

{6, 2, 9, 1, 2}

(1) (6 - 4)^2 + (2 - 4) ^2 + (9 - 4)^2 + (1 - 4)^2 + (2 - 4)^2 
   = 4 + 4 + 25 + 9 + 4
   = 46

(2) n - 1 = 5 - 1 = 4

(3) 46 / 4 = 11.5


0.2.1.2標準差 (standard deviation)

    s = sqrt(11.5) = 3.39

介紹：迴歸(regression) Y變量爲連續數值型(continuous numerical variable)
如：房價，人數，降雨量
分類(Classification): Y變量爲類別型(categorical variable)
如：顏色類別，電腦品牌，有無信譽
簡單線性迴歸(Simple Linear Regression)
2.1 很多做決定過過程通常是根據兩個或者多個變量之間的關係
2.3 迴歸分析(regression analysis)用來建立方程模擬兩個或者多個變量之間如何關聯
2.4 被預測的變量叫做：因變量(dependent variable), y, 輸出(output)
2.5 被用來進行預測的變量叫做：自變量(independent variable), x, 輸入(input)
簡單線性迴歸介紹
3.1 簡單線性迴歸包含一個自變量(x)和一個因變量(y)
3.2 以上兩個變量的關係用一條直線來模擬
3.3 如果包含兩個以上的自變量，則稱作多元迴歸分析(multiple regression)
簡單線性迴歸模型
4.1 被用來描述因變量(y)和自變量(X)以及偏差(error)之間關係的方程叫做迴歸模型
4.2 簡單線性迴歸的模型是:

其中：參數偏差
1. 簡單線性迴歸方程
  E(y) = β0+β1x
  這個方程對應的圖像是一條直線，稱作迴歸線
  其中，β0是迴歸線的截距
  β1是迴歸線的斜率
  E(y)是在一個給定x值下y的期望值（均值）
正向線性關係：
負向線性關係：