大數據環境下集成R語言的數據挖掘系統 之 數據分析

這一篇主要介紹數據分析模塊實現的算法。

分類模塊

流程圖

這裏寫圖片描述

功能

本模塊實現了數據分類功能,系統提供了SVM,KNN,決策樹,隨機森林等分類算法。首先通過對測試集的數據進行模型構建,在構建模型過程中我們可以對模型進行參數設置,模型構建完成之後,我們對預測集進行預測,最後將分類的結果導出。

實現原理

這裏寫圖片描述

聚類模塊

流程圖

這裏寫圖片描述

功能

本模塊實現了數據聚類功能,系統提供了kmeans,clara,PAM,Agnes,Diana算法。針對不同的算法,用戶需要設置不同的參數,然後系統根據用戶設定的參數進行數據聚類,聚類結果將以圖和表的形式給用戶顯示出來。

實現原理

這裏寫圖片描述

時間序列

流程圖

這裏寫圖片描述

功能

本模塊實現了對時間序列數據分析的功能,用戶上傳時間序列數據,然後設置時間序列參數,通過顯示出來的時間序列,我們判斷它是否滿足相加模型,如果數據滿足相加模型我們就不進行處理,否則我們對數據進行相應的處理,使得數據滿足相加模型,當數據滿足相加模型之後我們對數據進行時間序列建模,我們可以選擇自動分析和手動分析,自動分析時系統會根據數據自行設定arima模型的參數,進行相應的分析,手動分析將由用戶自己對模型的參數進行設定,模型建立後我們還可以對模型進行評估,看模型是否是最優模型,能否滿足用戶的需求,最後用戶利用模型進行預測。

實現原理

這裏寫圖片描述

關聯規則挖掘

流程圖

這裏寫圖片描述

功能

上傳事務型或記錄型數據集作爲數據源。系統提供了Apriori算法進行關聯規則的分析。Apriori算法是最有影響的挖掘布爾關聯規則頻繁項集的算法,其核心是基於兩階段頻集思想的遞推算法。

原理

這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章