李宏毅机器学习 Machine_Learning_2019_Task1

学习任务:

目录:
一、了解什么是Machine learning
二、中心极限定理、正态分布、最大似然估计
三、Loss Function
四、泰勒展开
五、L2-Norm,L1-Norm,L0-Norm

一、了解什么是Machine learning

机器学习简而言之就是找到一个function,根据输入得到想要的输出。
一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

机器学习采用两种技术:监督式学习和无监督学习。监督式学习根据已知的输入和输出训练模型,让模型能够预测未来输出;无监督学习从输入数据中找出隐藏模式或内在结构。

在这里插入图片描述

二、中心极限定理、正态分布、最大似然估计

Central Limit Theorem 中心极限定理

具体理解:
1、样本的平均值约等于总体的平均值。
2、不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。

normal distribution 正态分布

若随机变量X服从一个均值为μ,σ的平方的正态分布,其中μ为均值,σ的平方为方差,则记为:在这里插入图片描述

Maximum likelihood estimation 最大似然估计

极大似然估计其实是理想地认为,对于极少的样本观测,我们观测到的样本很可能就是发生概率最大的。

三、Loss Function 损失函数

1、推导过程

可以参见另一篇博客 https://mp.csdn.net/mdeditor/84944571#

2、损失函数与凸函数之间的关系
  • 损失函数:在监督学习中,损失函数刻画了模型和训练样本的匹配程度,即定义了模型的评估指标.
  • 凸函数的几何解释是:函数图像上的任意两点确定的弦在图像的上方;
3、全局最优与局部最优
  • 在《最优化理论》之中,确定一个函数的最大值或者最小值,最关键的无非就是两点,确定“搜索方向”和“搜索步长”。不同的优化算法本质上仍是通过不同的设计,寻找不同的搜索方向,再确定搜索步长,不断迭代。

四、泰勒展开

泰勒公式主要的作用就是把一个特别复杂的函数化简,近似的求其值。
在这里插入图片描述
在这里插入图片描述

梯度下降:

在这里插入图片描述

梯度下降代码:
def f(x):
    return x ** 2

## 首先要对f(x)进行求导 y'=2x
def h(x):
    return 2 * x

X=[]
Y=[]
x=2 #初始值
step = 0.8 #步长

f_change = f(x)
f_current = f(x)
X.append(x)
Y.append(f_current)
while f_change>1e-10:
    x = x-step * h(x)
    tmp = f(x)
    f_change = np.abs(f_current - tmp)
    f_current = tmp
    X.append(x)
    Y.append(f_current)
    print(u'x=',x)
    print(u'f_change:',f_change,'f_current=',f_current)
print(u'最终结果为',(x,f_current))

五、L2-Norm,L1-Norm,L0-Norm

推到正则化公式:

附图:

参考:
书籍:机器学习精讲
视频:李宏毅机器学习2019

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章