五:逻辑回归

背景知识

最大似然估计

先记着怕明天忘了,特地去看了考研视频。
所谓最大似然估计,估计的是:当参数 = ?时,观测值所出现的概率最大。
举个宇哥的例子,迎面走来一个人,你不知道他是国家一级运动员,还是二级运动员。所以是骡子是马拉出来溜溜:
如果这个人打枪,打了5次,成绩是10,9,9,10,10环,那我推测这人十有八九是一级运动员
如果成绩是3,4,5,3,2环,那我推测这个人应该是二级运动员。
对应上面的定义,翻译如下:
当参数是一级运动员的情况下,成绩是10,9,9,10,10环 出现的概率是很大的。
当参数是二级运动员的情况下,成绩是3,4,5,3,2环 出现的概率是很大的。
在这里插入图片描述
在机器学习中,前面一个可以看做是类别label,后面可以看做是特征feature。
翻译成机器学习的话就是,出现一组特征,你要求出他的类别(即当这个类别是什么时,这组特征才最有可能实现)是不是有分类的味了
具体深究:https://blog.csdn.net/zengxiantao1994/article/details/72787849

梯度下降法

举个例子就明白了。比如二次函数 y = x2。导数:2x。
在 x = -1 时 导数为-2,方向是负的,即往座标左侧,是增加最快的
在 x = 1 时 导数为2,方向是正的,即往座标右侧,是增加最快的
在这里插入图片描述
这个是一元,一元的梯度就是导数,
y = y - alpha*(该点梯度),alpha 是学习率,比如从(-1,1)点开始迭代,一次次变小,当到达(0,0)点时梯度为0,就不变了(理想情况,一般是会在0附近震荡,写程序时只要两次迭代后的y值差的绝对值小于某个阈值即可)
二元,多元都一样,往梯度方向是函数增加最快的方向,反梯度方向则是下降最快的方向。
详解:https://blog.csdn.net/UESTC_C2_403/article/details/74910107

逻辑回归

逻辑回归又叫对数回归。

引入

逻辑回归本质上也是一个二分类问题。
在这里插入图片描述
一般情况下红线(单位阶跃函数是一个最简单的二分类函数)
y=1,z>0;y=0, z<0,; 但是这个函数不是连续可导的,这给后续最优化问题会带来麻烦。所以就引入一个函数近似单位阶跃函数,但连续可导(图中黑线)。
在这里插入图片描述
这个函数定义域是任意范围,值域在[0,1]之间,当z>0即y>0.5时,我们就可以归为1类,当z<0即y<0.5时归为0类。
那y知道了是关于类别label的,那z呢?z = XW。X是样本向量,W是权重向量。
示例:每个样本特征维度为二维时z的表达
在这里插入图片描述
在这里插入图片描述
可以看到上图中的决策面,圆形在面上方z>0,属于1类,三角形在面下方z<0属于0类。

损失函数

我们目的是要找到一个好的决策面,那怎么找这个面呢?就像上文提到的SVM,关于求这个决策面都有损失函数指标,SVM中是margin越大越好,有物理意义。而逻辑回归的损失函数比较简单粗暴,就是预测错了,这个函数就会变大,且错的越离谱变的越大,所以只要将这个损失函数最小化,对应的决策面就会最优。

假设现在我有一个样本y,x。y是类别,x是特征向量。y的值是1也就是说这个样本是1类。然后我用x特征向量通过我的决策面函数预测我的分类:
在这里插入图片描述
这样我就算出了h。
按照上面想的损失函数的作用的话:
以 h = 0.5为界限,
if h>0.5,分类正确,且随着h从0.5到1的不同,损失函数越来越小直至0。
if h<0.5,分类错误,且随着h从0.5到1的不同,损失函数越来越大直至无穷
引入下面的损失函数:
在这里插入图片描述
同理,假设现在我有一个样本y,x。y是类别,x是特征向量。y的值是0也就是说这个样本是0类。然后我用x特征向量通过我的决策面函数预测我的分类:
按照上面想的损失函数的作用的话:
以 h = 0.5为界限,
if h>0.5,分类错误,且随着h从0.5到1的不同,损失函数越来越大直至无穷。
if h<0.5,分类正确,且随着h从0.5到0的不同,损失函数越来越小直至0
引入下面的损失函数:
在这里插入图片描述
两者合并处理后最后的损失函数:
在这里插入图片描述
现在来梳理一下啊,cost -->h–>z–>xw 一步一步关联的
所以只要这个cost函数达到最小,所得出的W决定的决策面应该是最好的。

求解最优决策面

下面的例子中有十个样本,每个样本二维特征+一个截距
在这里插入图片描述
最后是求的W,用梯度下降法求Min(cost)时的W

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章