分類和迴歸問題
首先我們來明確兩個大類:分類問題和迴歸問題。
分類問題:輸入變量與輸出變量均爲連續變量的預測問題是迴歸問題
迴歸問題:輸出變量爲有限個離散變量的預測問題爲分類問題
舉個例子:
預測明天的氣溫是多少度,這是一個迴歸問題;
預測明天是陰、晴還是雨,就是一個分類問題。
線性迴歸
線性迴歸是一個典型的迴歸算法,所謂的線性迴歸指的就是用一條直線能夠較爲準確的描述數據之間的關係,當有新的數據出現時,根據這條直線我們就能夠預測出一個值。常見的一個問題便是房價的預測問題,如下圖:該問題準確的描述了房屋面積和房屋價格之間的關係。
邏輯迴歸
乍一聽這個名字,很多人把它當作爲迴歸問題,其實邏輯迴歸是分類問題中最常用的模型之一。
有何異同
實際在邏輯迴歸中,因變量取值是一個二元分佈,模型學習得出的是,即給定了自變量和超參數之後,得到因變量的期望,並基於此期望來處理預測分類問題。而在現行迴歸中我們求解的是,是對我們假設的真實關係的一個近似,後面的表示的是誤差項,我們使用這個近似項來處理迴歸問題。
從另一個角度看邏輯迴歸和線性迴歸都使用了極大似然估計來對訓練樣本進行建模,線性迴歸使用最小二乘法,實際上就是在變量和超參數確定的情況下,因變量服從正態分佈的假設下,使用極大似然估計的一個化簡;而在邏輯迴歸中通過對似然函數的學習最終得到最佳參數。