1.机器学习
机器学习的主要任务就是分类。决定用某个机器学习算法进行分类,首先需要做的是算法训练,即如何学习分类。通常我们为算法输入大量已分类数据作为算法的训练集。目标变量是机器学习算法的预测结果。
分类算法:目标变量是标称型;
回归算法:目标变量是连续型的。
训练样本集必须确定知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。
知识表示:可以理解为输入与输出之间的映射。
机器学习的另一项任务是回归,它主要用于预测数值型数据。分类和回归都属于监督学习,因为这类算法必须知道预测什么,即目标变量的分类信息。
与监督学习对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。在无监督学习中,讲数据集合分成由类似的多个类的过程被成为聚类;将寻找描述数据统计值的过程称之为密度估计。
此外,无监督学习还可以减少数据特征的维度,以便我们更加直观的展示数据信息。
监督学习:分类,回归。
无监督学习:聚类,密度估计。
2.如何选择合适的算法
必须考虑两个问题:1.使用机器学习算法的目的;2.需要分析或收集的数据是什么。
首先考虑是否存在预测目标变量的问题,然后考虑目标变量是离散型的还是连续型的;若不预测目标变量,则考虑是否只是聚类问题还是包括相似性问题的密度估计问题。
python语言缺点:时间效率不如Java和C。
NumPy函数库:支持线性代数运算。
3.小结
学习机器学习算法,必须了解数据实例,每个数据实例由多个特征值组成。分类是基本的机器学习任务,它分析未分类数据,以确定如何将其放入已知群组中。