轉:數據挖掘流程及主流工具
(2010-01-21 15:23:36)限於篇幅,本文並不想對數據挖掘的技術多加闡述,讀者可以閱讀一些經典教材來獲得相應的知識,比如《數據挖掘:概念與技術》、《數據挖掘原理》、《機器學習》等。一般來說,常用的數據挖掘技術包括:用於客戶細分的聚類算法,用於交叉銷售的關聯分析和序列分析算法,用於客戶價值分析、流失分析、交叉銷售的決策樹、神經網絡和迴歸等預測算法,用於互聯網的文本挖掘和Web分析等等。
Eric King在“如何在數據挖掘上投資:避免預測型分析中昂貴的項目陷阱的框架”一文(發表於2005年10月的“DM Review”)中主張數據挖掘是一段旅程,而非終點。他把這段旅程定義爲數據挖掘過程。該過程包含如下要素:
l 一個發現過程
l 具有靈活的框架
l 按照清晰定義的策略進行
l 包含多個檢查點
l 多次定期的評估
l 允許在反饋環路中對函數進行調整
l 組織爲疊代式的架構
很多數據挖掘工具的廠商都對這個過程進行了簡化,使之更加清晰。SAS將數據挖掘過程劃分爲五個階段: 抽樣(Sample),探索(Explore),處理(Manipulate),建模(Model),評估(Assess)。過去人們常用循環式的飲水器來比喻數據挖掘過程。水(數據)首先涌上第一層(分析階段),形成漩渦(精煉和反饋),等到聚積了足夠多“已經處理過”的水之後,就溢出來流到下一個更低的層中。不斷地進行這種“處理”,直到水流到最低層。在那裏它被抽回頂層,開始新一輪的“處理”。數據挖掘和這種層次式的疊代過程非常相像。甚至在很多數據挖掘算法的內部處理也是如此,比如神經網絡算法,就是在數據集上多次運行(epochs),直至發現最優解。
但使用飲水器來比喻數據挖掘過程還不算恰當,因爲它沒有反映出反饋環路,而反饋環路在數據挖掘過程中是很常見的。例如,通過數據評估可以發現異常的數據,從而要求從源系統中抽取更多的數據。或者,在建模之後,會發現需要更多的記錄才能反映總體的分佈。
“工欲善其事,必先利其器”。當企業打算運用數據挖掘來改善企業運營時,選擇合適的數據挖掘工具就變得很重要了。工具的選擇通常會從以下角度來考慮(同時還需結合企業的信息化水平、具體的業務目標、要處理的數據量、對業務流程的改變等因素):
l 數據存取能力:能否訪問各種類型的數據,數據接口的效率如何
l 數據準備能力:數據處理能力,包括抽樣、過濾、變換、整合、探索等等
l 模型算法的廣度和深度:是否支持各種挖掘算法,多模型的比較及部署
l 可視化能力:多種圖形展示,交互操作
l 性能:軟硬件平臺支持,並行,多CPU,多線程,分佈式架構
l 對各種用戶和行業解決方案的支持能力
l 其它能力支持:中文支持,友好界面,批處理,API,元數據管理等
企業也可以參考第三方評估機構的評測結果,來選擇數據挖掘工具,比較權威的評估機構包括Gartner、IDC等等。以下引用Gartner在2007年第2季度發佈的“客戶數據挖掘魔力象限”評估報告的部分內容,向大家簡單介紹主流的數據挖掘產品。
“最近,著名軟件評測商Gartner對數據挖掘領域軟件進行了評測,最終的結果是,SAS和SPSS以及領域中的傳統地位仍然位於數據挖掘的領導者象限。異軍突起的是KXEN和Portrait Software,作爲遠見卓識家而出現。挑戰者是一片空白,其它的十餘個廠商佔據着利基市場。”
“在此項評測中,共有SAS、SPSS、KXEN、Portrait Software、Angoss Software、Unica、ThinkAnalytics、Fair Isaac、Infor CRM Epiphany等九家公司入選,這代表着當今的市場情況,在中國市場,主要的數據挖掘工具是SAS、KXEN和SPSS。”
在2006年第1季度的評估報告中,還曾包含Chordiant和Teradata等廠商。
評測的結果參見下圖。評估標準主要劃分爲兩個角度:執行力(縱軸)和視角完整性(橫軸)。其中執行力的評估包括七個評估標準,分別是產品/服務、市場反應和跟蹤記錄、總體生存能力、客戶體驗、市場執行、銷售執行/定價和運營能力。視角完整性的評估包括八個評估標準,分別是產品策略、市場理解力、市場策略、銷售策略、垂直/行業策略、商業模型、創新能力和地理戰略。
圖: Gartner客戶數據挖掘魔力象限(2007年第2季度)
在上圖中,把主流的數據挖掘廠商劃分爲四個象限,分別是領導者(Leaders)、挑戰者(Challengers)、遠見卓識家(visionaries)和利基市場(niche players)。以下對數據挖掘領域內的兩大領導廠商SAS和SPSS分別簡要介紹。
SAS |
|
|
在數據挖掘市場,SAS是最大的廠商,它有衆多的分析師,最多的客戶經驗,是數據挖掘的傳統標準工具,外包和服務提供商都非常熟悉SAS的產品。 SAS有最完整的數據準備和分析工具,很少有SAS不能解決的問題。尋求“一站式商店”平臺的企業應該考慮SAS。 SAS擁有廣泛的數據挖掘成功案例,從而讓客戶對SAS充滿信心。 |
SPSS |
|
|
SPSS在分析各種類型的數據有最廣泛的視角(行爲、人口統計學、調查、非結構化數據等)。試圖充分利用多種數據類型(尤其網頁,流量,文本,調查)的企業應該考慮SPSS。 SPSS對於模型管理環境有最好的視角,這可以更好的管理幾個數據挖掘工具的結果。 |
SAS |
|
|
在數據挖掘市場,SAS是最大的廠商,它有衆多的分析師,最多的客戶經驗,是數據挖掘的傳統標準工具,外包和服務提供商都非常熟悉SAS的產品。 SAS有最完整的數據準備和分析工具,很少有SAS不能解決的問題。尋求“一站式商店”平臺的企業應該考慮SAS。 SAS擁有廣泛的數據挖掘成功案例,從而讓客戶對SAS充滿信心。 |
SPSS |
|
|
SPSS在分析各種類型的數據有最廣泛的視角(行爲、人口統計學、調查、非結構化數據等)。試圖充分利用多種數據類型(尤其網頁,流量,文本,調查)的企業應該考慮SPSS。 SPSS對於模型管理環境有最好的視角,這可以更好的管理幾個數據挖掘工具的結果。 |