多特徵線性迴歸

原創

2018-09-01 23:20

有多個特徵的線性迴歸就是我們常說的多變量線性迴歸。我們先申明一些數學標記的含義：

x(i)j 代表第i個樣本中第j個特徵
x(i) 代表第i個樣本的所有特徵
m 代表訓練樣本個數
n 代表特徵個數

模型的多變量形式如下：

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + \dots + θ n x n

爲了便於理解，我們可以抽象一種情形，

θ0 代表房屋的基本價格，

θ1 代表每平米的價格，

θ2 代表每層的價格，

x1 代表房屋面積，

x2 代表房屋層數。

通過矩陣乘法，多項式可以寫成矩陣的形式：

h θ (x) = [θ 0 θ 1 θ 2 \dots θ n] ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 0 x 1 x 2 \dots x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = θ T x

則成本函數（代價函數）可以寫作：

J (θ 0, θ 1, \dots, θ n) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

對單個θj 進行梯度下降有：

θ j θ j : = θ j - α \partial \partial θ j J (θ) : = θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

實用技巧——特徵縮放(feature scaling)
動機：保證特徵在相似的範圍內
特徵範圍差異大會極大減緩收斂速度，梯度下降的迭代過程中會出現震盪現象。
例如：
x1 表示房屋面積(0-2000)平方米
x2 表示臥室數量(1-5)

x 1 x 2 = s i z e ( f e e t 2 ) 2000 = n u m b e r o f b e d r o o m 5

如果我們想把特徵範圍控制在[-1, 1]之間，可以進行以下變化：

x i : = x i - μ i s i

其中

μi 是特徵i的均值，

si 是特徵的範圍值(max - min)。

學習率選擇
如果學習率太小，梯度下降會收斂的很慢；
如果學習率太大，每次迭代J(θ) 反而會增大，導致無法收斂。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

論文翻譯——基於數據的最優直方圖

On Optimal and Data-Based Histograms Author(s) : David W. Scott Source : Biometrika, Vol. 66, No. 3 (Dec., 1979), p

2020-07-05 03:49:27

正規化和模型選擇(Regularization and model selection)

對於某個學習問題，我們如何在幾種不同的模型中進行選擇。例如，如果我們使用一個多項式迴歸模型hθ(x)=g(θ0+θ1x+θ2x2+…+θkxk)h_\theta(x) = g(\theta_0 + \theta_1x + \th

2020-07-05 03:49:27

資料翻譯——核密度估計簡介

An introduction to kernel density estimation These notes are an edited version of a seminar given by Tarn Duong on

2020-07-05 03:49:27

論文翻譯——用於大型社交網絡的推薦系統：主要挑戰及解決方案回顧

Recommender Systems for Large-Scale Social Networks: A review of challenges and solutions Punished in: ELSEVIER, Vo

2020-07-05 03:49:27

MNIST數據集格式轉化

MNIST數據集是ubyte格式存儲的，現在轉化爲png格式：訓練集： import numpy as np import struct from PIL import Image import os data_file

2020-07-02 01:58:14

機器學習: 邏輯迴歸(Logistic Regression) 小項目

該項目的所有代碼在我的github上，歡迎有興趣的同學與我探討研究~ 地址：Machine-Learning/machine-learning-ex2/ 1. Introduction 邏輯迴歸(Logistic Regres

2020-07-01 21:05:53

機器學習：手寫數字識別(Hand-written digits recognition)小項目

該項目的所有代碼在我的github上，歡迎有興趣的同學與我探討研究~ 地址：Machine-Learning/machine-learning-ex3/ 1. Introduction 手寫數字識別(Hand-written

2020-07-01 21:05:52

GBDT- gradient boosting decision tree

to be continued … 決策樹談森林之前，先說一說決策樹。小藍書裏說，決策樹可以看作是if-then規則的集合。就是將空間用超平面進行劃分，每次都一分爲二，每個葉子節點（即類別）都是在空間中不相交的區域。對於訓練數

2020-07-01 03:21:08

1 - 統計學習方法概論

1 統計學習 statistical learning: 基於數據構建概率統計模型並運用模型對數據進行預測與分析的一門學科。統計學習也稱統計機器學習(statistical machine learning)。現在，當人們提及機器

2020-06-29 14:09:08

LLE（locally linear embedding）原理介紹

LLE原理局部線性嵌入（Locally Linear Embedding, LLE）是無監督非線性降維算法，是流行學習的一種。 LLE和Isomap一樣試圖在降維過程中保持高維空間中的流形結構。Isomap把任意兩個樣本點之間

2020-06-27 04:41:13

method_LLE(Locally linear embdding)

局部線性嵌入(Locally Linear Embedding，以下簡稱LLE)也是非常重要的降維方法。和傳統的PCA，LDA等關注樣本方差的降維方法相比，LLE關注於降維時保持樣本局部的線性特徵，由於LLE在降維時保持了

2020-06-27 04:41:13

機器學習中的最優化方法進階

前言：在機器學習方法中，若模型理解爲決策模型，有些模型可以使用解析方法。不過更一般的對模型的求解使用優化的方法，更多的數據可以得到更多的精度。一、線性規劃線性規劃、整數規劃、目標規劃等

2020-06-27 04:41:13

method_LPP(Locality preserving projections)

本文是對何曉飛老師的論文Locality Preserving Projections及其代碼的一些簡單j介紹，論文及代碼均可以在何老師主頁上下載。一、LPP簡介線性投影映射最優化地保存了數據集的鄰近結構與PCA可作

2020-06-27 04:41:13

algo_KNN(k-nearest neighbor)

1 k-NN算法 k-近鄰（k-Nearest Neighbors, k-NN）算法是機器學習中非常簡單的一個算法，可以用於分類和迴歸問題。其基本思想是，在特徵空間中接近的兩個實例，其類別/函數值也接近。對實例x，找到訓練樣

2020-06-27 04:41:13

模型誤差的來源

誤差有兩個方面：bias和variance。簡單的模型（如線性模型），variance比較小，且不容易受樣品數據影響，不易過擬合。與此相反，複雜的模型的bias比較小。如果你的模型都不能擬合訓練數據，訓練error比較大，

2020-06-26 22:07:45

24小時熱門文章

最新文章

最新評論文章