1.机器学习

机器学习的主要任务就是分类。决定用某个机器学习算法进行分类，首先需要做的是算法训练，即如何学习分类。通常我们为算法输入大量已分类数据作为算法的训练集。目标变量是机器学习算法的预测结果。

分类算法：目标变量是标称型；

回归算法：目标变量是连续型的。

训练样本集必须确定知道目标变量的值，以便机器学习算法可以发现特征和目标变量之间的关系。

知识表示:可以理解为输入与输出之间的映射。

机器学习的另一项任务是回归，它主要用于预测数值型数据。分类和回归都属于监督学习，因为这类算法必须知道预测什么，即目标变量的分类信息。

与监督学习对应的是无监督学习，此时数据没有类别信息，也不会给定目标值。在无监督学习中，讲数据集合分成由类似的多个类的过程被成为聚类；将寻找描述数据统计值的过程称之为密度估计。

此外，无监督学习还可以减少数据特征的维度，以便我们更加直观的展示数据信息。

监督学习：分类，回归。

无监督学习：聚类，密度估计。

2.如何选择合适的算法

必须考虑两个问题：1.使用机器学习算法的目的；2.需要分析或收集的数据是什么。

首先考虑是否存在预测目标变量的问题，然后考虑目标变量是离散型的还是连续型的；若不预测目标变量，则考虑是否只是聚类问题还是包括相似性问题的密度估计问题。

python语言缺点:时间效率不如Java和C。

NumPy函数库:支持线性代数运算。

学习机器学习算法，必须了解数据实例，每个数据实例由多个特征值组成。分类是基本的机器学习任务，它分析未分类数据，以确定如何将其放入已知群组中。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.