Mahout與機器學習

原創

纵死侠骨香

2020-07-07 10:48

1、監督學習（Supervised learning）

2、非監督學習（Unsupervised Learning）

Mahout(象夫)

Apache開源項目，主要用於創建可伸縮的機器學習算法

實現瞭如下幾個主流的機器學習算法

Recommendation 推薦算法
Classification 分類算法
Clustering 聚類算法

Mahout的特性

1、在hadoop上運行，spark上也可以運行

2、在大型數據集上進行數據挖掘

3、快速高效分析大數據

4、包含了一些聚類算法

5、貝葉斯和樸素貝葉斯分類算法

6、包含矩陣和向量類庫

機器學習

是一個科學分支，主要是自動學習以及提升經驗值。

學習意味着識別和理解輸入數據，以及基於這些數據做出正確的決策。

實現機器學習的方式

1、監督學習（Supervised learning）

概念：

從可見的數據集中進行學習，產生推斷函數，並應用到新的案例上。

應用場景：

分類垃圾郵件
基於內容的網頁標籤化
語音識別。

監督學習的算法：

神經網絡
支持向量機
樸素貝葉斯分類器（Mahout實現）

2、非監督學習（Unsupervised Learning）

概念：

使用未標籤的數據，沒有做任何預定義數據，對於分析可用數據是一個極其強大的工具。

常見的非監督學習有：

K-mean（均值）
self-organizing maps（自組織映射）
hierachical clustering（層級聚類）

非監督學習的形式：

聚類，是基於數據的一些共性，形成若干組和相關數據集合。

新聞組使用聚類技術基於相關主題對各種文章進行分組

聚類引擎對數據進行遍歷，最終決定數據分配到哪個組下

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Mahout與機器學習

Mahout(象夫)

Mahout的特性

機器學習

實現機器學習的方式

1、監督學習（Supervised learning）

2、非監督學習（Unsupervised Learning）

AI模型 Llama 3體驗筆記

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

回顧騰訊電商路：馬化騰之痛可否療愈？

Yarn資源管理工作流程

計算機組成原理————中斷

計算機組成原理————指令

HDFS重點（讀寫流程）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結