目錄
2、非監督學習(Unsupervised Learning)
Mahout(象夫)
Apache開源項目,主要用於創建可伸縮的機器學習算法
實現瞭如下幾個主流的機器學習算法
- Recommendation 推薦算法
- Classification 分類算法
- Clustering 聚類算法
Mahout的特性
1、在hadoop上運行,spark上也可以運行
2、在大型數據集上進行數據挖掘
3、快速高效分析大數據
4、包含了一些聚類算法
5、貝葉斯和樸素貝葉斯分類算法
6、包含矩陣和向量類庫
機器學習
是一個科學分支,主要是自動學習以及提升經驗值。
學習意味着識別和理解輸入數據,以及基於這些數據做出正確的決策。
實現機器學習的方式
1、監督學習(Supervised learning)
概念:
從可見的數據集中進行學習,產生推斷函數,並應用到新的案例上。
應用場景:
- 分類垃圾郵件
- 基於內容的網頁標籤化
- 語音識別。
監督學習的算法:
- 神經網絡
- 支持向量機
- 樸素貝葉斯分類器(Mahout實現)
2、非監督學習(Unsupervised Learning)
概念:
使用未標籤的數據,沒有做任何預定義數據,對於分析可用數據是一個極其強大的工具。
常見的非監督學習有:
- K-mean(均值)
- self-organizing maps(自組織映射)
- hierachical clustering(層級聚類)
非監督學習的形式:
聚類,是基於數據的一些共性,形成若干組和相關數據集合。
新聞組使用聚類技術基於相關主題對各種文章進行分組
聚類引擎對數據進行遍歷,最終決定數據分配到哪個組下