學習任務:
目錄:
一、瞭解什麼是Machine learning
二、中心極限定理、正態分佈、最大似然估計
三、Loss Function
四、泰勒展開
五、L2-Norm,L1-Norm,L0-Norm
一、瞭解什麼是Machine learning
機器學習簡而言之就是找到一個function,根據輸入得到想要的輸出。
一種經常引用的英文定義是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
機器學習採用兩種技術:監督式學習和無監督學習。監督式學習根據已知的輸入和輸出訓練模型,讓模型能夠預測未來輸出;無監督學習從輸入數據中找出隱藏模式或內在結構。
二、中心極限定理、正態分佈、最大似然估計
Central Limit Theorem 中心極限定理
具體理解:
1、樣本的平均值約等於總體的平均值。
2、不管總體是什麼分佈,任意一個總體的樣本平均值都會圍繞在總體的整體平均值周圍,並且呈正態分佈。
normal distribution 正態分佈
若隨機變量X服從一個均值爲μ,σ的平方的正態分佈,其中μ爲均值,σ的平方爲方差,則記爲:。
Maximum likelihood estimation 最大似然估計
極大似然估計其實是理想地認爲,對於極少的樣本觀測,我們觀測到的樣本很可能就是發生概率最大的。
三、Loss Function 損失函數
1、推導過程
可以參見另一篇博客 https://mp.csdn.net/mdeditor/84944571#
2、損失函數與凸函數之間的關係
- 損失函數:在監督學習中,損失函數刻畫了模型和訓練樣本的匹配程度,即定義了模型的評估指標.
- 凸函數的幾何解釋是:函數圖像上的任意兩點確定的弦在圖像的上方;
3、全局最優與局部最優
- 在《最優化理論》之中,確定一個函數的最大值或者最小值,最關鍵的無非就是兩點,確定“搜索方向”和“搜索步長”。不同的優化算法本質上仍是通過不同的設計,尋找不同的搜索方向,再確定搜索步長,不斷迭代。
四、泰勒展開
泰勒公式主要的作用就是把一個特別複雜的函數化簡,近似的求其值。
梯度下降:
梯度下降代碼:
def f(x):
return x ** 2
## 首先要對f(x)進行求導 y'=2x
def h(x):
return 2 * x
X=[]
Y=[]
x=2 #初始值
step = 0.8 #步長
f_change = f(x)
f_current = f(x)
X.append(x)
Y.append(f_current)
while f_change>1e-10:
x = x-step * h(x)
tmp = f(x)
f_change = np.abs(f_current - tmp)
f_current = tmp
X.append(x)
Y.append(f_current)
print(u'x=',x)
print(u'f_change:',f_change,'f_current=',f_current)
print(u'最終結果爲',(x,f_current))
五、L2-Norm,L1-Norm,L0-Norm
推到正則化公式:
附圖:
參考:
書籍:機器學習精講
視頻:李宏毅機器學習2019