【机器学习实战】chapter 1

1.机器学习

机器学习的主要任务就是分类。决定用某个机器学习算法进行分类,首先需要做的是算法训练,即如何学习分类。通常我们为算法输入大量已分类数据作为算法的训练集。目标变量是机器学习算法的预测结果。

分类算法:目标变量是标称型;

回归算法:目标变量是连续型的。

训练样本集必须确定知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。

知识表示:可以理解为输入与输出之间的映射。

机器学习的另一项任务是回归,它主要用于预测数值型数据。分类和回归都属于监督学习,因为这类算法必须知道预测什么,即目标变量的分类信息。

与监督学习对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。在无监督学习中,讲数据集合分成由类似的多个类的过程被成为聚类;将寻找描述数据统计值的过程称之为密度估计

此外,无监督学习还可以减少数据特征的维度,以便我们更加直观的展示数据信息。

监督学习:分类,回归。

无监督学习:聚类,密度估计。

2.如何选择合适的算法

必须考虑两个问题:1.使用机器学习算法的目的;2.需要分析或收集的数据是什么。

首先考虑是否存在预测目标变量的问题,然后考虑目标变量是离散型的还是连续型的;若不预测目标变量,则考虑是否只是聚类问题还是包括相似性问题的密度估计问题。

python语言缺点:时间效率不如Java和C。

NumPy函数库:支持线性代数运算。

3.小结

  学习机器学习算法,必须了解数据实例,每个数据实例由多个特征值组成。分类是基本的机器学习任务,它分析未分类数据,以确定如何将其放入已知群组中。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章