BR-MLP基於spark+Hadoop分佈式數據挖掘解決方案功能剖析

BR-MLP是基於大數據BR-ODP的分佈式數據挖掘平臺,基於Hadoop和Spark技術,支持海量數據挖掘。提供數據源、數據預處理、特徵工程、統計分析、機器學習……組件。

數據挖掘平臺

1.數據源
提供數據集載入方案和方案中數據保存到平臺中的功能,

2.數據預處理
對數據進行清洗、類型轉化、值填充等,使數據內容和結構更規整,以便後續組件處理,其包含:去除重複、隨機採樣、分層採樣……

3特徵工程
對預處理好的規整數據進行更深入的處理,主要有尺度變換、異常平滑、特徵抽取和降維等。

特徵離散、特徵抽取……是其顯著特徵

4統計分析
對數據統計分析,瞭解數據的整體或詳情、分佈、相關性和適配度檢驗等,使我們在做數據預處理和特徵工程時,心中有數,知道哪些因素對我們最終的結果影響比較大等。

5分類與迴歸
構建分類或迴歸模型,創建的模型應用於後續的業務數據(應用數據)的預測/分類、迴歸等。BR-MLP包括決策樹分類、決策樹回、樸素貝葉斯、隨機森林分類……等12個算法。

6聚類
提供無監督的聚類機器學習方法,包括文本主題聚類等,可單獨使用,進行自動分類,也可以和分類算法結合使用,先用聚類得到類別,再將得到的類別作爲分類建模中的標籤,構建分類模型。

7協同過濾
BR-MLP支持協同過濾,可用於分辨某特定顧客可能感興趣的東西,這些結論來自於對其他相似顧客對哪些產品感興趣的分析。協同過濾以其出色的速度和健壯性,在全球互聯網領域炙手可熱。

8關聯分析
用於分析事物之間的關聯性,包括人與人之間的關聯性,物與物之間的關聯性,最經典的是尿布與啤酒的案例,在購物籃分析中很常用。

9深度學習
通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵,以發現數據的分佈式特徵表示。

10模型應用
選擇已經建好的算法模型,將選出的模型應用於業務層面。

11可視化
將分類/迴歸、聚類模型應用結果進行圖形化展現。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章