Mahout与机器学习

目录

Mahout

Mahout的特性

机器学习

实现机器学习的方式

1、监督学习(Supervised learning)

2、非监督学习(Unsupervised Learning)


Mahout(象夫)

Apache开源项目,主要用于创建可伸缩的机器学习算法

实现了如下几个主流的机器学习算法

  • Recommendation  推荐算法
  • Classification  分类算法
  • Clustering  聚类算法

Mahout的特性

1、在hadoop上运行,spark上也可以运行

2、在大型数据集上进行数据挖掘

3、快速高效分析大数据

4、包含了一些聚类算法

5、贝叶斯和朴素贝叶斯分类算法

6、包含矩阵和向量类库

机器学习

是一个科学分支,主要是自动学习以及提升经验值。

学习意味着识别和理解输入数据,以及基于这些数据做出正确的决策。

实现机器学习的方式

1、监督学习(Supervised learning)

概念

从可见的数据集中进行学习,产生推断函数,并应用到新的案例上。

应用场景

  • 分类垃圾邮件
  • 基于内容的网页标签化
  • 语音识别。

监督学习的算法:

  • 神经网络
  • 支持向量机
  • 朴素贝叶斯分类器(Mahout实现)

2、非监督学习(Unsupervised Learning)

概念

使用未标签的数据,没有做任何预定义数据,对于分析可用数据是一个极其强大的工具。

常见的非监督学习有:

  • K-mean(均值)
  • self-organizing maps(自组织映射)
  • hierachical clustering(层级聚类)

非监督学习的形式:

聚类,是基于数据的一些共性,形成若干组和相关数据集合。

新闻组使用聚类技术基于相关主题对各种文章进行分组

聚类引擎对数据进行遍历,最终决定数据分配到哪个组下

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章