迴歸的預測完整過程

前提：

1.線性迴歸與非線性迴歸概念

要解釋線性迴歸和非線性迴歸首先我們要理解這兩個詞

(1):什麼是迴歸(regression)？

由於是外國人命名的，我們找其根源只能從英文單詞開始入手，regression的詞根有重複的意思
統計學家在很久以前對於一些混亂的，看似無規律的，複雜的家族之間身高的數據中，不斷統計提取，發現了一些規律，父親身高高的，孩子的身高趨於下降，父親身高矮的，孩子的身高趨於上升，最終發現個人的身高往往趨近於整個種羣的身高平均值，彷彿自然有種約束力，將一切數值迴歸於某一個值。我們把那個平均值認爲是無序數據之間遵循的一種規律。
這是被稱之爲迴歸的原因。
而回歸的目的就是要在看似無規律的數據中找到其相互變量之間的約束規則的過程。
因此我們把關注點放在如何找到無序數據的均值上，找到均值意味着就找到了規律。
根據小學知識，我們很明白，均值的求法即爲對每個變量求和再除以變量的個數
即：(x1+x2+x3+……+xn)/n--------得到均值y。
但是現實生活中。往往各個變量或者說各個影響結果的特徵因素的權重是不一樣的
因此我們將公式改寫爲：y = w0 + w1x1 + w2x2 + w3x3 + w4x4 + w5x5 + w6x6
使變量之間的權重係數各不一樣以此來模擬現實。
這就是多元迴歸方程。
顯然，若是隻有一個x1特徵，那麼就是一元迴歸。

(2):什麼是線性(linear)？

我查了維基，線性這個詞對於線性迴歸方程來說，不是指的特徵，而是指的參數theta。
所以y = ax + b 和 y = ax^2 + b 對於這兩個方程來說都爲線性迴歸方程。
原因很簡單，多項式的特徵也可以寫成y = w0 + w1x1之類的形式，本質是一樣的
而那什麼是非線性的呢，
非線性不是由簡單的加法和乘法組成，類似之後要講的
logistic迴歸(sigmoid函數):

傅里葉函數：

此些都爲非線性迴歸方程。區分也非常簡單，只要你記住了線性方程的結構，其他均是非線性，反推即可。

一：建立迴歸方程

1.簡單迴歸—多項式迴歸—非線性迴歸

一般來說，迴歸問題會通常會用以上3種方式來建立模型，前兩者屬於線性迴歸

簡單迴歸

當問題比較簡單時，我們通過多元一次項線性迴歸來擬合數據規律，根據特徵個數不同其結果可能是一條直線，一個平面，一個超平面。

　

多項式迴歸

然而有的時候數據並不是我們想象的那樣單純且簡單，它可能和特徵的平方或者三次方的關係更爲密切，爲了更好的擬合數據，我們需要的是曲線或者曲面或者超曲面。

非線性迴歸

我們從泰勒公式可知：低階決定形狀，高階決定細節，理論上來講任何函數都可以通過多項式來進行擬合，只需要不斷增加高次項，增加其細節。
但是有些很明顯，高次項太多就會使特徵值不斷增加，導致最後模型異常複雜甚至出現了過擬合的現象（結尾給出解釋），如果像一些傅里葉函數本身就有特殊的非線性關係，此時我們需要用非線性迴歸來建立模型。

二：檢驗迴歸方程

以上我們瞭解了當我們對數據進行規律尋找時，需要建立迴歸方程的模型以此來擬合數據。
顯然，我們也需要一套用來檢驗模型是否能準確預測和評判模型與模型之間的好壞的標準。
通常我們的代價函數，最常用的有兩種
均方誤差代價函數（Mean Squared Error）
交叉熵代價函數（Cross Entry）

代價函數：

1.最小二乘法----均方誤差函數（Mean Squared Error）

統計學最常用的權衡標準均方誤差是迴歸模型中最常用的性能度量。用真實值與預測值之差的平方和來判別，顯然均方誤差越小，其模型就越準確。
此方法類似於歐式距離法，幾何意義的角度爲：計算所有樣本到直線上的歐式距離之和達到最小。
以最簡單的一元線性迴歸：y = bx + a爲例
函數表達式：

我們將這類通過計算所有樣本誤差最小值來檢驗模型的函數稱爲叫代價函數
當MSE值損失最低，則模型最準確。
我們需要挑選使MSE值降爲最低的模型來作爲我們的最佳線性迴歸模型。
PS：僅作爲理解，事實上並不是最低就是最佳模型，之後的篇幅還需要考慮過過擬合的情況

2.極大似然估計法----交叉熵代價函數（Cross Entry）

我們之所以會換方法是因爲均方誤差函數往往是一個非凸函數，對於求解全局最小值很麻煩，
而交叉熵代價函數是一個凸函數。所以這是一個非凸轉化爲凸函數的問題。
此方法用於神經網絡深度學習和logistic迴歸中。
這裏我們暫時不講對數迴歸，在之後的篇幅裏我們再細講。我們先記住它的公式

是通過概率滿足伯努利分佈，列似然函數，求極大似然值，對其對數=0 求導方程得出結果。
之後講logistic迴歸時我們會細細推導。

代價函數的極值：

1.梯度下降法

梯度下降法的原理異常簡單：
即對代價函數這個多元函數對其每個特徵求偏導以此得到當前狀態的該特徵方向的梯度值，即最大下降值，並對該值乘以一個步長，即學習率，並將每個特徵值同步更新後完成了一次迭代，當不斷的迭代之後，就可以獲得局部或者全局極小值。
說人話就是，當你在山上下山時，每走一步判斷此時下山的斜率是不是達到了最大，達到則走一步，不斷走之後便會以最快的速度達到山腳下。

迭代的公式：

我們當這一次迭代值與上一次做差來確定一個閾值，小於閾值就可以結束迭代了。
牛頓法則是通過二階收斂來求解目標函數一階導爲零的參數值，方法是目標函數的Hessian矩陣的逆矩陣，這個我們之後的篇幅細講。

梯度下降優點：

當特徵值n的規模很大時，梯度下降仍能很好的運行。

梯度下降缺點:

當你選擇的步長太長時，你很有可能會錯過最小值，而你步長選的太短時又會迭代速度慢，導致以很慢的速度求到最小值。
極端點說就是你的步子太大，一下山頭走到了另一個山頭，步子太小，你走一年才能走到山下。

2.正規方程

公式：

機器學習：迴歸預測連續與離散的深度剖析----看完完全理解了迴歸是什麼東西了！

文章目錄

迴歸的預測完整過程

前提：

1.線性迴歸與非線性迴歸概念

(1):什麼是迴歸(regression)？

(2):什麼是線性(linear)？

一：建立迴歸方程

1.簡單迴歸—多項式迴歸—非線性迴歸

簡單迴歸

多項式迴歸

非線性迴歸

二：檢驗迴歸方程

代價函數：

1.最小二乘法----均方誤差函數（Mean Squared Error）

2.極大似然估計法----交叉熵代價函數（Cross Entry）

代價函數的極值：

1.梯度下降法

梯度下降優點：

梯度下降缺點:

2.正規方程

PS：正規方程和過擬合下次寫把，未完待續。

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

ZooKeeper系列（一）ZooKeeper基本簡介與命令和集羣環境搭建

Hadoop系列 (一) 補--Hadoop完全分佈式環境搭建

Hadoop系列 ( 三 ) MapReduce存在的意義----MapReduce究竟做了些什麼？？

Scala系列（二）Scala數組----超詳細常用方法及其用法

Sqoop系列（一）通過sqoop將關係型數據遷移到HBase和Hive上

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結