迴歸(regression)和logistic regression

原創

2020-06-14 19:33

迴歸

“迴歸”就是“迴歸本質”的意思。用一個函數去擬合一組數據(xi,yi) ，隨着數據越來越多，用來擬合的這個曲線就越來越接近真實的情況。這裏xi 可以是一個向量, 假設xi∈Rn , 若用線性迴歸的方法, 首先把它擴展爲n+1 維, 用來擬合的參數θ∈Rn+1 ; 其中x0=1 , 對應θ0 爲截距. , 所以函數擬合的是一個n+2 維的超平面(θT⋅x−y=0 ). 擬合後得到的超平面, 輸出前n+1 維的輸入, 可以得到一個輸出y .
* linear regression：用直線擬合
* logistci regression：用一種曲線擬合（曲線的形狀和sigmoid有什麼聯繫?）

Logistics regression

θT⋅x 是linear regression，套一層sigmoid將輸出映射到(0,1) 。

假設訓練集爲(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m)) ；輸入特徵爲x(i)∈Rn+1 （我們對符號的約定如下：特徵向量x(i) 的維度爲n+1 ，其中x0=1 ，對應截距項）。由於logistic迴歸是針對二分類問題的，因此類標記y(i)∈{0,1} 。假設函數(hypothesis function) 如下：

h θ (x) = 1 1 + e - θ T \cdot x, θ \in R n + 1

Interpretion：

hθ(x(i))=Sigmoid(θT⋅x(i)) 是

y(i)=1 的概率，

1−hθ(x(i)) 是

y(i)=0 的概率(吳恩達，Logistic Regression: Optimization Objective I)

訓練θ ，使其能最小化代價函數：

J (θ) = - 1 m [\sum i = 1 m log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))]

爲什麼cost function定義爲這樣？
* 首先的確可以定義爲squared error的形式，即

J (θ) = 1 m \sum i = 1 m (h θ (x) - y (i)) 2

但是該曲線not convex，即很難找到全局最優。定義爲上面的形式則convex。

* 對某個

(x(i),y(i)) 分類討論：
1. 當

y(i)=1 時，

cost→∞ when

hθ(x(i))→0 ;

cost→0 when

hθ(x(i))→1(i.e. y(i))

2. 當

y(i)=0 時，

cost→0(i.e. y(i)) when

hθ(x(i))→0 ;

cost→∞ when

hθ(x(i))→1

* 用

log 函數的意義在於，它就是好用，而且convex。（這裏我也不明白，就先這麼記着）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

迴歸(regression)和logistic regression

迴歸

Logistics regression

迴歸(regression)和logistic regression

PyTorch讀取Cifar數據集並顯示圖片

Python的is和==區別（整理）

>和>>的用法和區別

python的_xxx, xxx, xxx__區別

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結