轉:數據挖掘流程及主流工具

轉:數據挖掘流程及主流工具

 (2010-01-21 15:23:36)
標籤: 

sas

 

數據挖掘

 

spss

 

挖掘工具

 

利基

 

商都

 

雜談

分類: 用戶分析定位
數據挖掘流程及主流工具

限於篇幅,本文並不想對數據挖掘的技術多加闡述,讀者可以閱讀一些經典教材來獲得相應的知識,比如《數據挖掘:概念與技術》、《數據挖掘原理》、《機器學習》等。一般來說,常用的數據挖掘技術包括:用於客戶細分的聚類算法,用於交叉銷售的關聯分析和序列分析算法,用於客戶價值分析、流失分析、交叉銷售的決策樹、神經網絡和迴歸等預測算法,用於互聯網的文本挖掘和Web分析等等。

Eric King在“如何在數據挖掘上投資:避免預測型分析中昂貴的項目陷阱的框架”一文(發表於200510月的“DM Review”)中主張數據挖掘是一段旅程,而非終點。他把這段旅程定義爲數據挖掘過程。該過程包含如下要素:

l         一個發現過程

l         具有靈活的框架

l         按照清晰定義的策略進行

l         包含多個檢查點

l         多次定期的評估

l         允許在反饋環路中對函數進行調整

l         組織爲疊代式的架構

很多數據挖掘工具的廠商都對這個過程進行了簡化,使之更加清晰。SAS將數據挖掘過程劃分爲五個階段: 抽樣(Sample),探索(Explore),處理(Manipulate),建模(Model),評估(Assess)。過去人們常用循環式的飲水器來比喻數據挖掘過程。水(數據)首先涌上第一層(分析階段),形成漩渦(精煉和反饋),等到聚積了足夠多“已經處理過”的水之後,就溢出來流到下一個更低的層中。不斷地進行這種“處理”,直到水流到最低層。在那裏它被抽回頂層,開始新一輪的“處理”。數據挖掘和這種層次式的疊代過程非常相像。甚至在很多數據挖掘算法的內部處理也是如此,比如神經網絡算法,就是在數據集上多次運行(epochs),直至發現最優解。

但使用飲水器來比喻數據挖掘過程還不算恰當,因爲它沒有反映出反饋環路,而反饋環路在數據挖掘過程中是很常見的。例如,通過數據評估可以發現異常的數據,從而要求從源系統中抽取更多的數據。或者,在建模之後,會發現需要更多的記錄才能反映總體的分佈。

“工欲善其事,必先利其器”。當企業打算運用數據挖掘來改善企業運營時,選擇合適的數據挖掘工具就變得很重要了。工具的選擇通常會從以下角度來考慮(同時還需結合企業的信息化水平、具體的業務目標、要處理的數據量、對業務流程的改變等因素):

l         數據存取能力:能否訪問各種類型的數據,數據接口的效率如何

l         數據準備能力:數據處理能力,包括抽樣、過濾、變換、整合、探索等等

l         模型算法的廣度和深度:是否支持各種挖掘算法,多模型的比較及部署

l         可視化能力:多種圖形展示,交互操作

l         性能:軟硬件平臺支持,並行,多CPU,多線程,分佈式架構

l         對各種用戶和行業解決方案的支持能力

l         其它能力支持:中文支持,友好界面,批處理,API,元數據管理等

企業也可以參考第三方評估機構的評測結果,來選擇數據挖掘工具,比較權威的評估機構包括GartnerIDC等等。以下引用Gartner2007年第2季度發佈的“客戶數據挖掘魔力象限”評估報告的部分內容,向大家簡單介紹主流的數據挖掘產品。

“最近,著名軟件評測商Gartner對數據挖掘領域軟件進行了評測,最終的結果是,SASSPSS以及領域中的傳統地位仍然位於數據挖掘的領導者象限。異軍突起的是KXENPortrait Software,作爲遠見卓識家而出現。挑戰者是一片空白,其它的十餘個廠商佔據着利基市場。”

“在此項評測中,共有SASSPSSKXENPortrait SoftwareAngoss SoftwareUnicaThinkAnalyticsFair IsaacInfor CRM Epiphany等九家公司入選,這代表着當今的市場情況,在中國市場,主要的數據挖掘工具是SASKXENSPSS。”

2006年第1季度的評估報告中,還曾包含ChordiantTeradata等廠商。

評測的結果參見下圖。評估標準主要劃分爲兩個角度:執行力(縱軸)和視角完整性(橫軸)。其中執行力的評估包括七個評估標準,分別是產品/服務、市場反應和跟蹤記錄、總體生存能力、客戶體驗、市場執行、銷售執行/定價和運營能力。視角完整性的評估包括八個評估標準,分別是產品策略、市場理解力、市場策略、銷售策略、垂直/行業策略、商業模型、創新能力和地理戰略。

轉:數據挖掘流程及主流工具

圖: Gartner客戶數據挖掘魔力象限(2007年第2季度)

在上圖中,把主流的數據挖掘廠商劃分爲四個象限,分別是領導者(Leaders)、挑戰者(Challengers)、遠見卓識家(visionaries)和利基市場(niche players)。以下對數據挖掘領域內的兩大領導廠商SASSPSS分別簡要介紹。

轉:數據挖掘流程及主流工具

 

SAS

 

在數據挖掘市場,SAS是最大的廠商,它有衆多的分析師,最多的客戶經驗,是數據挖掘的傳統標準工具,外包和服務提供商都非常熟悉SAS的產品。

SAS有最完整的數據準備和分析工具,很少有SAS不能解決的問題。尋求“一站式商店”平臺的企業應該考慮SAS

SAS擁有廣泛的數據挖掘成功案例,從而讓客戶對SAS充滿信心。

SPSS

 

SPSS在分析各種類型的數據有最廣泛的視角(行爲、人口統計學、調查、非結構化數據等)。試圖充分利用多種數據類型(尤其網頁,流量,文本,調查)的企業應該考慮SPSS

SPSS對於模型管理環境有最好的視角,這可以更好的管理幾個數據挖掘工具的結果。

 

SAS

 

在數據挖掘市場,SAS是最大的廠商,它有衆多的分析師,最多的客戶經驗,是數據挖掘的傳統標準工具,外包和服務提供商都非常熟悉SAS的產品。

SAS有最完整的數據準備和分析工具,很少有SAS不能解決的問題。尋求“一站式商店”平臺的企業應該考慮SAS

SAS擁有廣泛的數據挖掘成功案例,從而讓客戶對SAS充滿信心。

SPSS

 

SPSS在分析各種類型的數據有最廣泛的視角(行爲、人口統計學、調查、非結構化數據等)。試圖充分利用多種數據類型(尤其網頁,流量,文本,調查)的企業應該考慮SPSS

SPSS對於模型管理環境有最好的視角,這可以更好的管理幾個數據挖掘工具的結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章