機器學習(1):機器學習與數學分析

近期因工作需要,開始學習機器學習。學習心得體會,定期更新梳理出來,首次接觸,可能有理解和解釋不到位的地方,望批評指正,也算是自我提升。

提到機器學習,樓主第一反應是各種複雜的公式,各種搞不定的矩陣計算、積分、微分、熵等,甚至還專門爲此重新學習了線性代數。其實從機器學習的角度去看數學知識,基本的高等數學、概率論等已經滿足需求。

以下回顧三個常用的數學知識,並和機器學習中的數學簡單關聯。
**

(1)、自然對數e的引出

**
先從一個問題出發,求如下s的值:

s=10!+11!+12!+13!+14!+...+1n!+...

問題分析:
如果令f(x)=logax
這裏寫圖片描述
我們知道所有對數函數都會經過點(1,0),則在底數a爲何值時,(1,0)處的導數爲1呢?我們知道f(x)的極限值:
f(x+Δx)f(x)Δx=loga(x+Δx)loga(x)Δx=loga(x+ΔxΔx)1Δx

由於在(1,0)處的導數爲1,則當Δx 趨於無窮小時:
loga(1+Δx)1Δx=1

等價於:
limn1+1nn=?

這裏寫圖片描述
這裏寫圖片描述
由此引入自然對數e,上述問題的極限,即s的值也爲e。
**

(2)、導數與梯度下降

**
簡單來說,導數就是曲線的斜率,是曲線變化快慢的體現。二階導數就是曲線斜率變化快慢的反映。
我們知道,如果函數z=f(x,y)在點P(x,y)處的導數存在,則函數在該點任意方向L上的偏導數都存在,並且有:

(f)(l)=(f)(x)cosφ+(f)(l)sinφ

其中φ 爲X軸到方向L的轉角。
上述公式可用矩陣表述爲:
(f)(l)=((f)(x),(f)(l))(cosφ,sinφ)T

兩個向量在什麼時候點乘最大呢?由於:ab=|a||b|cosφ
答案是同方向的時候,點乘最大,所以機器學習的一個經典算法–梯度下降,形如從山頂走到山腳,以最快的速度下降,採用的就是當前所在位置的偏導數,沿着偏導數的方向下降,能以最快的速度到達目的地。
((f)(x),(f)(l)) 爲函數z=f(x,y)在P點的梯度,記做gradf(x,y)。
梯度的方向是函數在當前點變化最快的方向。

**

(3)、組合數背後的祕密

**
先看一個典型的古典概率問題:將12個正品和3個次品,隨機裝在3個箱子中,每箱裝5件,則每個箱子恰好有一個次品的概率是多少?
先把15個產品裝入3個箱子,共有裝法:15!/(5!5!5!)
3個次品裝入3個箱子,共有:3!種裝法。然後把12個正品裝入3個箱子,每個4件,共有裝法:12!/(4!4!4!)
所以概率P(A)=(3!*12!/(4!4!4!))/(15!/(5!5!5!))

一個通用的問題:N個物品分成k組,使得每組物品的個數分別爲n1、n2、……、nk(N=n1+n2+……+nk),則不同的分組方法有:N!n1!n2!nk!
當N趨於無窮大時,我們來求一個特殊的值:

H=1NlnN!n1!n2!nk!

由於N趨於無窮大時,lnN!—–>N(LnN-1)
上述計算等價於:
lnN11Ni=1kni(lnni1)=1Ni=1kni(lnni)NlnN)=1Ni=1k(ni(lnni)nilnN)=1Ni=1k(nilnniN)=i=1k(niNlnniN)

共有N個盒子,niN 相當於第i個盒子的頻率,即p,上述H最後轉換爲:
H=i=1k(pi)ln(pi)

這個式子我們認識有木有,熵由此引出。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章