Mahout與機器學習

目錄

Mahout

Mahout的特性

機器學習

實現機器學習的方式

1、監督學習(Supervised learning)

2、非監督學習(Unsupervised Learning)


Mahout(象夫)

Apache開源項目,主要用於創建可伸縮的機器學習算法

實現瞭如下幾個主流的機器學習算法

  • Recommendation  推薦算法
  • Classification  分類算法
  • Clustering  聚類算法

Mahout的特性

1、在hadoop上運行,spark上也可以運行

2、在大型數據集上進行數據挖掘

3、快速高效分析大數據

4、包含了一些聚類算法

5、貝葉斯和樸素貝葉斯分類算法

6、包含矩陣和向量類庫

機器學習

是一個科學分支,主要是自動學習以及提升經驗值。

學習意味着識別和理解輸入數據,以及基於這些數據做出正確的決策。

實現機器學習的方式

1、監督學習(Supervised learning)

概念

從可見的數據集中進行學習,產生推斷函數,並應用到新的案例上。

應用場景

  • 分類垃圾郵件
  • 基於內容的網頁標籤化
  • 語音識別。

監督學習的算法:

  • 神經網絡
  • 支持向量機
  • 樸素貝葉斯分類器(Mahout實現)

2、非監督學習(Unsupervised Learning)

概念

使用未標籤的數據,沒有做任何預定義數據,對於分析可用數據是一個極其強大的工具。

常見的非監督學習有:

  • K-mean(均值)
  • self-organizing maps(自組織映射)
  • hierachical clustering(層級聚類)

非監督學習的形式:

聚類,是基於數據的一些共性,形成若干組和相關數據集合。

新聞組使用聚類技術基於相關主題對各種文章進行分組

聚類引擎對數據進行遍歷,最終決定數據分配到哪個組下

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章