Logistic Regression
簡單易懂的筆記 by hch
首先要搞懂幹什麼:
x |
特徵值1 |
特徵值2 |
… |
特徵值n |
y |
x1 |
1 |
0 |
… |
1 |
0 |
x2 |
0 |
1 |
… |
1 |
1 |
… |
… |
… |
… |
… |
… |
xm |
1 |
0 |
… |
1 |
0 |
xj表示第j個樣本,共有m個樣本
xji表示第j個樣本的第i維特徵值
yj表示第j個樣本的tag,即結果
我們試圖通過已知tag的數據去訓練模型,從而預測未知tag的數據
(下面數學公式有哪裏不懂了,記得回來看這裏的定義)
形象理解參數與預測
借用二維(假設只有兩個特徵)圖像,我們可以把樣本表示到二維圖上
我們查看此圖會發現,線段很好地分割了樣本點 該線段函數爲
y=ax
我們換種表達方式
Q=w1x+w2y
點處於線段時,Q=0
點處於線段上方時,Q>0
點處於線段下方時,Q<0
也就如圖中所顯示的那樣,我們通過這條線便可分出點的類別
那麼開始延伸,預測xj樣本,它有n維向量,表達式即爲
Q=w1xj1+w2xj2+w3xj3+...+wnxjn
我們的問題也就演變成了如何求參(w1,w2,w3,…,wn)
sigmod函數
即大於0時其趨近於1,小於0時其趨近於0,我們可以得到表達式
hθ(xj)=sigmoid(w1xj1+w2xj2+w3xj3+...+wnxjn)
當y=1時,我們希望h(xj)預測也爲1
當y=0時,我們希望h(xj)預測也爲0
合二爲一
觀察下面這個式子
p(yj∣xj)=hθ(xj)yj∗(1−hθ(xj))1−yj
當yj=1時,p(yj|xj)=1
當yj=0時,p(yj|xj)=1
我們只要希望這個函數輸出1就好了
損失函數
(習慣於損失函數越小越好,所以加了負號)
loss=−ln(j=1∏mp(yj∣xj))=j=1∑m−yjlnhθ(xj)−(1−yj)ln(1−hθ(xj))
梯度下降法
我們想要求上面那個函數的極大值點,第一想法是求導,然後讓導數等於0,且得到的該點代入二階導後小於0,就得到極大值點了,即
f′(x0)=0
f′′(x0)<0
即x0爲極大值點。 但這是求一個自變量的函數極值的方法,我們有n個wi是未知的,也就是有n個自變量,這種方法自然是不管用了。那麼是否仍然有特定的算數方法得到極大值呢?想必考過研的同學都知道二元是怎麼求的,十分麻煩的方法,這時計算機提出了它自己的方法,我們依舊先用二維來理解。
y=−x2+6x
導數的真正意義—方向
觀察綠點(1,5),其導數爲4
觀察綠點(5,5),其導數爲-4
導數的本質爲“方向”
在(1,5)點x要往左移一些
在(5,5)點x要往右移一些
x1=x0+α∗δxδy
計算機在(1,5)點,以α的學習速率向左移動x,一步步移動,最後會收斂到極大值點。拓展:針對我們的loss函數,我們對每一個自變量wi求導,並以α的學習速率更新wi。
δwiδloss=j=1∑mδhθ(xj)δloss∗δwδloss∗δwiδw
δhθ(xj)δloss=−hθ(xj)yi+1−hθ(xj)1−yi
sigmoid(x)=1−e−x1
(sigmoid(x))′=sigmoid(x)∗(1−sigmoid(x))
δwδhθ(xj)=(1−sigmoid(hθ(xj))sigmoid(hθ(xj))
w=w1∗xj1+w1∗xj2+w1∗xj3+....+w1∗xjn
δwiδw=xji
wi=wi+α∗δwiδloss
以上收斂到wi即可,我們即求參完成,預測模型也完成了。
正則化
欠擬合與過擬合
你覺得哪個圖像能描繪這些點的走向最好?
一圖完全是沒描 這叫“欠擬合” 也就是模型沒訓練好
二圖雖然描的簡單,但形象地表現了數據的大體走向,這叫“適當容量”,訓練的不錯
三圖每個點都描上了,但描“過了”,用馬克思原理來說,把“偶然性”表現在了我們追求的“必然性”之中,這叫“過擬合”
奧卡姆剃刀
對於組織在目標設置與執行過程中因上述種種原因而出現的目標曲解與置換,有一個根本的解決之道,即“無情地剔除所有累贅”,這也正是“奧卡姆剃刀”所倡導的“簡化”法則:保持事物的簡單化是對付複雜與繁瑣的最有效方式。
簡單來說:我們追求簡單且能表現規律的模型,圖二,就決定是你了。
正則化解決過擬合
L1範式:
new_loss=loss+α∗i=1∑n∣wi∣
L2範式:
new_loss=loss+21∗α∗i=1∑n∣wi∣2
它們的原理:
我們使用梯度下降法是爲了使loss函數尋找到極小值,那麼也就使屬於new_loss變到最小,也就是使一些很小的wi變成0,這樣的意義會使一些對應的不重要的特徵無效化,從而簡化模型,尋找數據的必然性。
兩者的區別:
L1範數是指向量中各個元素絕對值之和
L2範數是指向量各元素的平方和然後求平方根
L1範數可以進行特徵選擇,即讓特徵的係數變爲0.
L2範數可以防止過擬合,提升模型的泛化能力,有助於處理 condition number不好下的矩陣(數據變化很小矩陣求解後結果變化很大)
(核心:L2對大數,對outlier離羣點更敏感!)
下降速度:最小化權值參數L1比L2變化的快
模型空間的限制:L1會產生稀疏 L2不會。
L1會趨向於產生少量的特徵,而其他的特徵都是0,而L2會選擇更多的特徵,這些特徵都會接近於0。