Mahout是什麼?
Mahout是一個算法庫,集成了很多算法。
Apache Mahout 是 Apache Software Foundation(ASF)旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。
Mahout項目目前已經有了多個公共發行版本。Mahout包含許多實現,包括聚類、分類、推薦過濾、頻繁子項挖掘。
通過使用 Apache Hadoop 庫,Mahout 可以有效地擴展到Hadoop集羣。
Mahout 的創始人 Grant Ingersoll 介紹了機器學習的基本概念,並演示瞭如何使用 Mahout 來實現文檔集羣、提出建議和組織內容。
Mahout應用
1.推薦引擎
在目前採用的機器學習技術中,推薦引擎是最容易被一眼認出來的,也是應用範圍最廣的。服務商或網站會根據你過去的行爲爲你推薦書籍、電影或文章。
在部署了推薦系統的電子商務中,亞馬遜大概是最有名的。亞馬遜基於用戶的交易行爲和網站記錄爲你推薦你可能喜歡的商品。
而facebook這樣的社交網絡則利用推薦技術爲你找到最可能尚未關聯的朋友。
同時,這一技術也被各大知名國內網站所使用,如騰訊、人人、京東、淘寶。
2.聚類
顧名思義,物以類聚,人以羣分。聚類是把具有共同屬性的物品進行歸類。
Google news使用聚類技術通過標題把新聞文章進行分組,從而按照邏輯線索來顯示新聞,而並非給出所有新聞的原始列表。
3、分類
分類技術決定了一個事物多大程度上從屬於某種類別或類型,或者多大程度上具有或者不具有某些屬性。與聚類一樣,分類無處不在,但更多隱身於幕後。通常這些系統會考察類別中的大量實例,來學習推到出分類的規則。
雅虎郵箱基於用戶以前對正常右鍵和垃圾郵件的報告,以及電子右鍵自身的特徵,來判別到來的消息是否是垃圾郵件。