1 線性迴歸模型
迴歸算法是一種監督學習算法,用來建立自變量x和觀測變量y之間的映射關係,如果觀測變量是離散的,則稱其爲分類Classification;如果觀測變量是連續的,則稱其爲迴歸Regression。
迴歸算法的目的是尋找假設函數hypothesis來最好的擬合給定的數據集。該回歸模型如下圖所示。
2 目標函數與代價函數
2.1 目標函數
1.定義
根據數據特徵尋找合適的假設函數hθ(x)來最好的擬合給定的數據集,構造該目標函數對應的代價函數(Cost Function)J(θ0,θ1),並求得最小損失函數,所得目標函數即爲最優目標函數。
2.相關參數
- m:訓練樣本的數目
- x’s:輸入變量
- y’s:輸出變量
- (x,y):一個樣本
3.圖示目標函數(便於理解)
例如爲上面一組數據集“擬合”一個儘可能吻合數據特徵的目標函數。
2.2 代價函數
1.代價函數的本質
代價函數的實質是一個平方差成本函數,即一個樣本數據的輸入值x通過目標函數hypothesis得到的hθ(x)值與樣本輸出值y的差的平方和的平均值(/2m)。
2.代價函數最小化
最優代價函數求解算法有梯度下降法BGD/SGD/MBGD迭代求θ以及方程對數極大似然偏導等於0直接求θ,即最小二乘法解析解直接求θ值。下一篇文章講解的是第一種方法,即梯度下降法。
3 手動求解最小代價函數(最優目標函數)
爲了便於理解,下面使用手動演示求解最小代價函數的方法。爲了便於理解,簡化演示,取θ0爲0,即代價函數爲J(0,θ1),。
目標函數hθ(x)與代價函數J(θ0,θ1)的圖像對比如下圖。
有上圖右邊圖可知,在該數據集中,當θ1取1,θ0取0時,代價函數取得最小值,也即當θ1取1,θ0取0時目標函數爲最優解。