李宏毅機器學習 Machine_Learning_2019_Task1

學習任務:

目錄:
一、瞭解什麼是Machine learning
二、中心極限定理、正態分佈、最大似然估計
三、Loss Function
四、泰勒展開
五、L2-Norm,L1-Norm,L0-Norm

一、瞭解什麼是Machine learning

機器學習簡而言之就是找到一個function,根據輸入得到想要的輸出。
一種經常引用的英文定義是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

機器學習採用兩種技術:監督式學習和無監督學習。監督式學習根據已知的輸入和輸出訓練模型,讓模型能夠預測未來輸出;無監督學習從輸入數據中找出隱藏模式或內在結構。

在這裏插入圖片描述

二、中心極限定理、正態分佈、最大似然估計

Central Limit Theorem 中心極限定理

具體理解:
1、樣本的平均值約等於總體的平均值。
2、不管總體是什麼分佈,任意一個總體的樣本平均值都會圍繞在總體的整體平均值周圍,並且呈正態分佈。

normal distribution 正態分佈

若隨機變量X服從一個均值爲μ,σ的平方的正態分佈,其中μ爲均值,σ的平方爲方差,則記爲:在這裏插入圖片描述

Maximum likelihood estimation 最大似然估計

極大似然估計其實是理想地認爲,對於極少的樣本觀測,我們觀測到的樣本很可能就是發生概率最大的。

三、Loss Function 損失函數

1、推導過程

可以參見另一篇博客 https://mp.csdn.net/mdeditor/84944571#

2、損失函數與凸函數之間的關係
  • 損失函數:在監督學習中,損失函數刻畫了模型和訓練樣本的匹配程度,即定義了模型的評估指標.
  • 凸函數的幾何解釋是:函數圖像上的任意兩點確定的弦在圖像的上方;
3、全局最優與局部最優
  • 在《最優化理論》之中,確定一個函數的最大值或者最小值,最關鍵的無非就是兩點,確定“搜索方向”和“搜索步長”。不同的優化算法本質上仍是通過不同的設計,尋找不同的搜索方向,再確定搜索步長,不斷迭代。

四、泰勒展開

泰勒公式主要的作用就是把一個特別複雜的函數化簡,近似的求其值。
在這裏插入圖片描述
在這裏插入圖片描述

梯度下降:

在這裏插入圖片描述

梯度下降代碼:
def f(x):
    return x ** 2

## 首先要對f(x)進行求導 y'=2x
def h(x):
    return 2 * x

X=[]
Y=[]
x=2 #初始值
step = 0.8 #步長

f_change = f(x)
f_current = f(x)
X.append(x)
Y.append(f_current)
while f_change>1e-10:
    x = x-step * h(x)
    tmp = f(x)
    f_change = np.abs(f_current - tmp)
    f_current = tmp
    X.append(x)
    Y.append(f_current)
    print(u'x=',x)
    print(u'f_change:',f_change,'f_current=',f_current)
print(u'最終結果爲',(x,f_current))

五、L2-Norm,L1-Norm,L0-Norm

推到正則化公式:

附圖:

參考:
書籍:機器學習精講
視頻:李宏毅機器學習2019

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章