机器学习2018-12-28

机器学习 组成
主要任务
分类(classification):将实例数据划分到合适的类别中。
应用实例:判断网站是否被黑客入侵(二分类),手写数字的自动识别(多分类)
回归(regression):主要用于预测数值型数据
应用实例:股价价格波动的预测,房屋价格的预测等。

监督学习(superviesd learning)
必须确定目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。(包括:分类和回归)
样本集:训练数据+测试数据
训练样本=特征(feature)+目标变量(label:分类-离散值/回归-连续值)
特征通常是训练样本集的列,它们是独立测量得到的。
目标变量:目标变量是机器学习预测算法的测试结果。
在分类算法中目标变量的类型通常是标称型(如:真与假),二组回归算法中通常是连续型(如:1~100)。
监督学习需要注意的问题:
偏置方差权衡
功能的复杂性和数量的训练数据
输入空间的维数
噪声中的输出值

非监督学习(unsupervised learning)
在机器学习,无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构。因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案。
无监督学习是密切相关的统计数据密度估计的问题。然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术。在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法。
数据没有类别信息,也不会给定目标值。
非监督学习包括的类型:
聚类:在无监督学习中,将数据集分成由类似的对象组成多个类的过程称为聚类。
密度估计:通过样本分布的紧密程度,来估计与分组的相似性。
此外,无监督学习还可以减少数据特征的难度,以便我们可以使用二维或三维图形更加直观地展示数据信息。

k-近邻算法
k 近邻算法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k 近邻算法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻算法不具有显式的学习过程

KNN原理
KNN工作原理
1、假设有一个带有标签的样本数据集(训练样本集),其中包含每条数据与所属分类的对应关系。
2、输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较。
i.计算新数据与样本数据集中每条数据的距离。
ii.对求得的所有距离进行排序(从小到大,越小表示越相似)。
iii.取前k(k一般小于等于20)个样本数据对应的分类标签。
3、求k个数据中出现次数最多的分类标签作为新数据的分类。

决策树 原理
决策树的定义:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性(feature),叶结点表示一个类(labels)。
用决策树对需要测试的实例进行分类:从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分配到叶结点的类中。

决策树 须知概念
信息熵&信息增益
熵(entropy):熵指的是体系的混乱的程度。
信息论中的熵(香农熵):一种信息的度量方式,表示信息的混乱程度,也就是说:信息越有序,信息熵越低。
信息增益(information gain):在划分数据集前后信息发生的变化成为信息增益。
决策树

朴素贝叶斯
贝叶斯理论
贝叶斯决策理论核心思想:选择具有最高概率的决策。

Logistic回归
Logistic 回归 或者叫逻辑回归 虽然名字有回归,但是它是用来做分类的。其主要思想是: 根据现有数据对分类边界线(Decision Boundary)建立回归公式,以此进行分类。

支持向量机
SVM是一种监督学习算法。
支持向量就是离分隔超平面最近的那些点。
SVM
核函数

随机森林和AdaBoost
三个臭皮匠顶个诸葛亮

线性回归
树回归 CART(Classification And Regression Trees, 分类回归树)

K-Means(K-均值)聚类算法

使用Apriori算法进行关联分析
关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以由两种形式:
频繁项集(frequent item sets):经常出现在一块的物品的集合。
关联规则(associational rules):暗示两种物品之间可能存在很强的关系。
使用FP-growth算法来高效发现频繁项集

降维技术
在以下3种降维技术中, PCA的应用目前最为广泛,因此本章主要关注PCA。
1、主成分分析(Principal Component Analysis, PCA)
通俗理解:就是找出一个最主要的特征,然后进行分析。
例如: 考察一个人的智力情况,就直接看数学成绩就行(存在:数学、语文、英语成绩)
因子分析(Factor Analysis)
通俗理解:将多个实测变量转换为少数几个综合指标。它反映一种降维的思想,通过降维将相关性高的变量聚在一起,从而减少需要分析的变量的数量,而减少问题分析的复杂性
例如: 考察一个人的整体情况,就直接组合3样成绩(隐变量),看平均成绩就行(存在:数学、语文、英语成绩)
应用的领域:社会科学、金融和其他领域
在因子分析中,我们
假设观察数据的成分中有一些观察不到的隐变量(latent variable)。
假设观察数据是这些隐变量和某些噪音的线性组合。
那么隐变量的数据可能比观察数据的数目少,也就说通过找到隐变量就可以实现数据的降维。
独立成分分析(Independ Component Analysis, ICA)
通俗理解:ICA 认为观测信号是若干个独立信号的线性组合,ICA 要做的是一个解混过程。
例如:我们去ktv唱歌,想辨别唱的是什么歌曲?ICA 是观察发现是原唱唱的一首歌【2个独立的声音(原唱/主唱)】。
ICA 是假设数据是从 N 个数据源混合组成的,这一点和因子分析有些类似,这些数据源之间在统计上是相互独立的,而在 PCA 中只假设数据是不 相关(线性关系)的。
同因子分析一样,如果数据源的数目少于观察数据的数目,则可以实现降维过程。
主成分分析
MapReduce机器学习
来源于 ApacheCN

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章