&&机器学习实战&&Logistic回归

原創

Luemmm

2019-06-12 16:57

1.概述

假设现在有一些数据点，我们用一条直线对这些点进行拟合，该拟合过程就称作回归。利用Logisti回归进行分类的主要思想是：根据现有的数据对分类边界线建立回归公式，以此进行分类。这里的回归一词源于最佳拟合，表示要找到最佳拟合参数集。

这个二值型输出分类器的数学原理：

本章首先阐述logistic回归的定义，然后介绍一些最优化算法，其中包括基本的梯度上升法和一个改进的随机梯度上升法，这些最优化算法将用于分类器的训练。

优点：计算代价不高，易于理解和实现。

缺点：容易欠拟合，分类精度可能不高。

适用数据类型：数值型和标称型数据。

海维塞德阶越函数和sigmoid函数：

确定了分类器的函数形式之后，现在的问题变成了：最佳回归系数是多少？如何确定它们的大小？

2.基于最优化方法的最佳回归系数确定

3.梯度上升法

基本思想：要找到某函数的最大值，最好的方法是沿着该函数的梯度方向探寻。

梯度上升算法和梯度下降算法是同一个算法。

梯度上升算法伪代码：

3.随机梯度上升算法

梯度上升算法在每次更新回归系数时都需要遍历整个数据集，该方法在数据量大时，计算复杂度也太高。一种改进方法是一次仅用一个样本点来更新回归系数，该方法称为随机梯度上升算法。由于可以在新样本到来时对分类器进行增量式更新，因而随机梯度上升算法是一个在线学习算法。与在线学习相对应，一次处理所有数据被称作是批处理。

随机梯度算法的伪代码：

5.小结

logistic回归的目的是寻找一个非线性函数sigmoid的最佳拟合参数，求解过程可以由最优化算法来完成。在最优化算法中，最常用的就是梯度上升算法，而梯度上升算法又可以简化为随机梯度上升算法。

随机梯度上升算法在新书据到来时就完成参数更新，而不需要重新读取整个数据集来进行批处理运算。

机器学习的一个重要问题就是如何处理缺失数据。这个问题没有标准答案，取决于实际应用中的需求。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

&&机器学习实战&&Logistic回归

MySQL 核心模块揭秘 | 18 期 | 锁在内存里长什么样*

使用perf工具生成火焰图

响应式界面控件DevExtreme * 更强的数据分析和可视化功能

大龄程序员思考

HttpSecurity 是如何组装过滤器链的

数说海南——近6年海南各市县人口简单看

长序列中Transformers的高级注意力机制总结

WebStorm 创建 Vue 项目

nuget添加readme

Ubuntu14.04 安裝VTK7.1.1 並在QT 4.5.3下調用

理解dropout,梯度下降,反向傳播算法

機器學習之激活函數

機器學習任務類別&&性能度量

&&機器學習實戰&&DBSCAN

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結