机器学习2018-12-28

机器学习组成
主要任务
分类（classification）：将实例数据划分到合适的类别中。
应用实例：判断网站是否被黑客入侵（二分类），手写数字的自动识别（多分类）
回归（regression）：主要用于预测数值型数据
应用实例：股价价格波动的预测，房屋价格的预测等。

监督学习（superviesd learning）
必须确定目标变量的值，以便机器学习算法可以发现特征和目标变量之间的关系。在监督学习中，给定一组数据，我们知道正确的输出结果应该是什么样子，并且知道在输入和输出之间有着一个特定的关系。（包括：分类和回归）
样本集：训练数据+测试数据
训练样本=特征（feature）+目标变量（label：分类-离散值/回归-连续值）
特征通常是训练样本集的列，它们是独立测量得到的。
目标变量：目标变量是机器学习预测算法的测试结果。
在分类算法中目标变量的类型通常是标称型（如：真与假），二组回归算法中通常是连续型（如：1~100）。
监督学习需要注意的问题：
偏置方差权衡
功能的复杂性和数量的训练数据
输入空间的维数
噪声中的输出值

非监督学习（unsupervised learning）
在机器学习，无监督学习的问题是，在未加标签的数据中，试图找到隐藏的结构。因为提供给学习者的实例是未标记的，因此没有错误或报酬信号来评估潜在的解决方案。
无监督学习是密切相关的统计数据密度估计的问题。然而无监督学习还包括寻求，总结和解释数据的主要特点等诸多技术。在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法。
数据没有类别信息，也不会给定目标值。
非监督学习包括的类型：
聚类：在无监督学习中，将数据集分成由类似的对象组成多个类的过程称为聚类。
密度估计：通过样本分布的紧密程度，来估计与分组的相似性。
此外，无监督学习还可以减少数据特征的难度，以便我们可以使用二维或三维图形更加直观地展示数据信息。

k-近邻算法
k 近邻算法的输入为实例的特征向量，对应于特征空间的点；输出为实例的类别，可以取多类。k 近邻算法假设给定一个训练数据集，其中的实例类别已定。分类时，对新的实例，根据其 k 个最近邻的训练实例的类别，通过多数表决等方式进行预测。因此，k近邻算法不具有显式的学习过程。

KNN原理
KNN工作原理
1、假设有一个带有标签的样本数据集（训练样本集），其中包含每条数据与所属分类的对应关系。
2、输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较。
i.计算新数据与样本数据集中每条数据的距离。
ii.对求得的所有距离进行排序（从小到大，越小表示越相似）。
iii.取前k（k一般小于等于20）个样本数据对应的分类标签。
3、求k个数据中出现次数最多的分类标签作为新数据的分类。

决策树原理
决策树的定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。结点有两种类型：内部结点（internal node）和叶结点（leaf node）。内部结点表示一个特征或属性（feature），叶结点表示一个类（labels）。
用决策树对需要测试的实例进行分类：从根节点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；这时，每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶结点。最后将实例分配到叶结点的类中。

决策树须知概念
信息熵&信息增益
熵（entropy）：熵指的是体系的混乱的程度。
信息论中的熵（香农熵）：一种信息的度量方式，表示信息的混乱程度，也就是说：信息越有序，信息熵越低。
信息增益（information gain）：在划分数据集前后信息发生的变化成为信息增益。

朴素贝叶斯

贝叶斯决策理论核心思想：选择具有最高概率的决策。

Logistic回归
Logistic 回归或者叫逻辑回归虽然名字有回归，但是它是用来做分类的。其主要思想是: 根据现有数据对分类边界线(Decision Boundary)建立回归公式，以此进行分类。

支持向量机
SVM是一种监督学习算法。
支持向量就是离分隔超平面最近的那些点。

核函数

随机森林和AdaBoost
三个臭皮匠顶个诸葛亮

线性回归
树回归 CART(Classification And Regression Trees，分类回归树)

K-Means（K-均值）聚类算法

使用Apriori算法进行关联分析
关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以由两种形式：
频繁项集（frequent item sets）：经常出现在一块的物品的集合。
关联规则（associational rules）：暗示两种物品之间可能存在很强的关系。
使用FP-growth算法来高效发现频繁项集

降维技术
在以下3种降维技术中， PCA的应用目前最为广泛，因此本章主要关注PCA。
1、主成分分析(Principal Component Analysis, PCA)
通俗理解：就是找出一个最主要的特征，然后进行分析。
例如：考察一个人的智力情况，就直接看数学成绩就行(存在：数学、语文、英语成绩)
因子分析(Factor Analysis)
通俗理解：将多个实测变量转换为少数几个综合指标。它反映一种降维的思想，通过降维将相关性高的变量聚在一起,从而减少需要分析的变量的数量,而减少问题分析的复杂性
例如：考察一个人的整体情况，就直接组合3样成绩(隐变量)，看平均成绩就行(存在：数学、语文、英语成绩)
应用的领域：社会科学、金融和其他领域
在因子分析中，我们
假设观察数据的成分中有一些观察不到的隐变量(latent variable)。
假设观察数据是这些隐变量和某些噪音的线性组合。
那么隐变量的数据可能比观察数据的数目少，也就说通过找到隐变量就可以实现数据的降维。
独立成分分析(Independ Component Analysis, ICA)
通俗理解：ICA 认为观测信号是若干个独立信号的线性组合，ICA 要做的是一个解混过程。
例如：我们去ktv唱歌，想辨别唱的是什么歌曲？ICA 是观察发现是原唱唱的一首歌【2个独立的声音（原唱／主唱）】。
ICA 是假设数据是从 N 个数据源混合组成的，这一点和因子分析有些类似，这些数据源之间在统计上是相互独立的，而在 PCA 中只假设数据是不相关（线性关系）的。
同因子分析一样，如果数据源的数目少于观察数据的数目，则可以实现降维过程。

来源于 ApacheCN

机器学习2018-12-28

一键自动化博客发布工具,用过的人都说好(掘金篇)

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

[转帖]

python列出centos7内存使用前50的进程信息

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

nodejs学习06——小案例

评估统计算法在银行伪造钞票检测中的价值

C# Xmlserializer 程序集内存泄露

Java ThreadPoolShutdown

5月21日相聚上海张江！与文心大模型一起共建大模型产业应用生态圈

機器學習2018-12-28

C++調用MySQL實例

Python二維數組初始化陷阱

vector迭代器失效問題

python subprocess

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結