Difference between 分类and聚类
A:
分类 | 聚类 | |
---|---|---|
是否监督 | 有监督学习 | 无监督学习 |
任务 | find模型,数据标签一一对应 | 相似的数据聚在一起 |
数学类比 | 已知x,y求f | 已知x,求f |
分类
是机器学习中的一项非常重要的任务,利用分类技术可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器),并把数据集中的每个对象归结到某个已知的对象类中。
从某种意义上讲数据挖掘的目标就是根据样本数据形成的模型并对源数据进行分类,进而也可以预测未来数据的归类。
分类和回归都可以用于预测,两个的目的都是从历史数据记录中建立模型,从而可以对未来数据进行预测,.
那么分类和回归应怎样区分呢?
具体区分细节可以点击我的主页查看其他blog,在这里只做大概描述:
与回归不同,分类的输出是离散的类别值,回归输出的是连续的数值.
从直观上感觉,聚类的难度是要大于分类的难度的.
聚类
- 与分类技术不同,在机器学习中,聚类是一种无监督学习。也就是说,聚类是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。
- 聚类的目的是是的属于同一类别的对象之间的差别尽可能的小,不同类别上的对象差别尽可能的大.
有监督学习
训练数据包括本身数据和所属类别
常见算法:逻辑回归算法,SVM,大热的深度学习.
无监督学习
训练样本只有本身的数据,只能通过数据特征的相似度对样本进行聚类.
常见算法:K-means算法,DBSCAN算法.