BR-MLP基於spark+Hadoop分佈式數據挖掘解決方案功能剖析

原創

2019-06-19 14:10

BR-MLP是基於大數據BR-ODP的分佈式數據挖掘平臺,基於Hadoop和Spark技術，支持海量數據挖掘。提供數據源、數據預處理、特徵工程、統計分析、機器學習……組件。

1.數據源
提供數據集載入方案和方案中數據保存到平臺中的功能，

2.數據預處理
對數據進行清洗、類型轉化、值填充等，使數據內容和結構更規整，以便後續組件處理，其包含:去除重複、隨機採樣、分層採樣……

3特徵工程
對預處理好的規整數據進行更深入的處理，主要有尺度變換、異常平滑、特徵抽取和降維等。

特徵離散、特徵抽取……是其顯著特徵

4統計分析
對數據統計分析，瞭解數據的整體或詳情、分佈、相關性和適配度檢驗等，使我們在做數據預處理和特徵工程時，心中有數，知道哪些因素對我們最終的結果影響比較大等。

5分類與迴歸
構建分類或迴歸模型，創建的模型應用於後續的業務數據（應用數據）的預測/分類、迴歸等。BR-MLP包括決策樹分類、決策樹回、樸素貝葉斯、隨機森林分類……等12個算法。

6聚類
提供無監督的聚類機器學習方法，包括文本主題聚類等，可單獨使用，進行自動分類，也可以和分類算法結合使用，先用聚類得到類別，再將得到的類別作爲分類建模中的標籤，構建分類模型。

7協同過濾
BR-MLP支持協同過濾，可用於分辨某特定顧客可能感興趣的東西，這些結論來自於對其他相似顧客對哪些產品感興趣的分析。協同過濾以其出色的速度和健壯性，在全球互聯網領域炙手可熱。

8關聯分析
用於分析事物之間的關聯性，包括人與人之間的關聯性，物與物之間的關聯性，最經典的是尿布與啤酒的案例，在購物籃分析中很常用。

9深度學習
通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵，以發現數據的分佈式特徵表示。

10模型應用
選擇已經建好的算法模型，將選出的模型應用於業務層面。

11可視化
將分類/迴歸、聚類模型應用結果進行圖形化展現。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.