R語言數據挖掘實戰系列(1)

R語言數據挖掘實戰(1)

一、數據挖掘基礎

數據挖掘:從數據中“淘金”,從大量數據(包括文本)中挖掘出隱含的、未知的、對決策有潛在價值的關係、模式和趨勢,並用這些知識和規則建立用於決策支持的模型,提供預測性決策支持的方法、工具和過程。

數據挖掘的任務

利用分類與預測、聚類分析、關聯規則、時序模式、偏差檢測、智能推薦等方法,幫助企業提取數據中蘊含的商業價值,提高企業的競爭力。

數據挖掘建模過程

定義挖掘目標,即決定到底想幹什麼?

數據取樣。抽取一個與挖掘目標相關的樣本數據子集。抽取數據的標準:一是相關性,二是可靠性,三是有效性。衡量取樣數據質量的標準包括:(1)資料完整無缺,各類指標項齊全;(2)數據準確無誤,反映的都是正常(而不是異常)狀態下的水平。常見抽樣方法有:隨機抽樣、等距抽樣、分層抽樣、從起始順序抽樣、分類抽樣等。

數據探索。數據探索和預處理的目的是保證樣本數據的質量、從而爲保證模型質量奠定基礎。常用數據探索方法有:異常值分析、缺失值分析、相關性分析、週期性分析等。

數據預處理。當採樣數據維度過大時,如何進行降維處理、缺失值處理等都是數據預處理要解決的問題。常用的數據預處理方法包括:數據篩選、數據變量轉換、缺失值處理、壞數據處理、數據標準化、主成分分析、屬性選擇、數據規約等。

挖掘建模。本次建模屬於數據挖掘應用中哪類問題(分類、聚類、關聯規則、時序模式或智能推薦),選用哪種算法進行模型構建?

模型評價。從這些模型中自動找出一個最好的模型,根據業務對模型進行解釋和應用。

常用數據挖掘建模工具

(1)R。

R是一種爲統計計算和圖形顯示而設計的語言環境,是貝爾實驗室的Rick Becker、John Chambers和Allan Wilks開發的S語言的一種實現。

(2)Python。

Python是一門簡單易學且功能強大的編程語言,擁有高效的高級數據結構,並且能夠用簡單而又高效的方式進行面向對象編程。

(3)SAS Enterprise Miner

Enterprise Miner(EM)是SAS推出的一個集成的數據挖掘系統,允許使用和比較不同的技術,同時還集成了複雜的數據庫管理軟件。

(4)IBM SPSS Modeler

它封裝了最先進的統計學和數據挖掘技術,來獲得預測知識並將相應的決策方案部署到現有的業務系統和業務過程中。擁有直觀的操作界面、自動化的數據準備和成熟的預測分析模型。

(5)SQL Server

Microsoft的SQL Server中集成了數據挖掘組件——Analysis Servers。在SQL Server 2008中提供了決策樹算法、聚類分析算法、Naive Bayes算法、關聯規則算法、時序算法、神經網絡算法、線性迴歸算法等9中常用的數據挖掘算法。但是平臺移植性相對較差。

(6)MATLAB

MATLAB是美國Mathworks公司開發的應用軟件,具備強大的科學及工程計算能力,它不但具有以矩陣計算爲基礎的強大數學計算能力和分析能力,而且還具有豐富的可視化圖形表現功能和方便的程序設計能力。

(7)WEKA

WEKA(Waikato Environment for Knowledge Analysis)是一款知名度較高的開源機器學習和數據挖掘軟件。

(8)TipDM

TipDM(頂尖數據挖掘平臺)使用Java語言開發,能從各種數據源獲取數據,建立多種數據挖掘模型。目前已集成數十種預測算法和分析技術,基本覆蓋了國內外主流挖掘系統支持的算法。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章