數據挖掘工具初探之SPSS Clementine篇

 數據挖掘工具初探之SPSS Clementine

摘要: 近年來,數據挖掘技術越來越多的投入工程統計和商業運籌,國外各大數據開發公司陸續推出了一些先進的挖掘工具,其中spss公司的Clementine軟件以其簡單的操作,強大的算法庫和完善的操作流程成爲了市場佔有率最高的通用數據挖掘軟件。本文通過對其界面、算法、操作流程的介紹,具體實例解析以及與同類軟件的比較測評來解析該數據挖掘軟件。

Abstract In recent years, more and more data mining technology input the engineering statistics and business operations research, major foreign company rolled out a number of advanced mining tools, including the software Clementine of SPSS has the largest market share of the general-purpose data mining software for its simple operation, powerful algorithms library and completeness operation processes. In this paper, I will introduce its interfaces, algorithms, operation processes, specific examples of analysis and comparison with the similar software to resolve this data mining software.

Key words:數據挖掘  數據挖掘工具  Clementine

                                                     

1.      前言

 

1.1   關於數據挖掘

數據挖掘有很多種定義與解釋,例如“識別出巨量數據中有效的、新穎的、潛在有

用的、最終可理解的模式的非平凡過程 1。” 大體上看,數據挖掘可以視爲機器學習和數據庫的交叉,它主要利用機器學習界提供的技術來分析海量數據,利用數據庫界提供的技術來管理海量數據。2

     在我看來,數據挖掘的意義卻不限於此,儘管數據挖掘技術的誕生源於對數據庫管理的優化和改進,但時至今日數據挖掘技術已成爲了一門獨立學科,過多的依賴數據庫存儲信息,以數據庫已有數據爲研究主體,嘗試尋找算法挖掘其中的數據關係嚴重影響了數據挖掘技術的發展和創新。儘管有了數據倉庫的存在可以分析整理出已有數據中的敏感數據爲數據挖掘所用,但數據挖掘技術卻仍然沒有完全舒展開拳腳,釋放出其巨大的能量,可憐的數據適用率(即可用於數據挖掘的數據佔數據庫總數據的比率)導致了數據挖掘預測準確率與實用性的下降。所以,我心中的數據挖掘技術的未來(一種幼稚的想法)是以挖掘算法爲主體,專門蒐集和記錄滿足算法需求的數據構建特有的數據庫爲其服務,這是一個從面向過程到面向對象的轉變。

 

    1.2 數據挖掘工具的重要性

如果通過傳統的編程實現數據挖掘,不但費時費力,其性能也無法做到完整和穩定。而數據挖掘商業工具的誕生,不但創造出了又一個巨大的市場,而且隨着各公司產品功能的補充完善和使用簡易性的提高,更多的沒有計算機專業知識背景的人也可以享受數據挖掘的強大分析能力和預測能力。

直接採用商業數據挖掘工具來幫助項目實施,也是一個很好的選擇。它既節省了大量的開發費用,又可以節約維護和升級的開銷3,所以瞭解和掌握主流數據挖掘工具的適用範圍、使用方法和特色創新便顯得尤爲重要。本文正是基於此原因對目前使用率最高的數據挖掘工具SPSS Clementine進行初步的探索和測評。

 

 

2.      Clementine簡介

 

2.1  Clementine的背景知識

   Clmentine 翻譯成中文是克萊門氏小柑橘,它是ISL(Integral Solutions Limited)公司開發的數據挖掘工具平臺。1999SPSS公司收購了ISL公司,對Clementine產品進行重新整合和開發,現在Clementine已經成爲SPSS公司的又一亮點。在Gartner的客戶數據挖掘工具評估中,僅有兩家廠商被列爲領導者:SASSPSSSAS獲得了最高ability to execute評分,代表着SAS在市場執行、推廣、認知方面有最佳表現;而SPSS獲得了最高的completeness of vision,表明SPSS在視覺界面和技術創新方面遙遙領先。

 

  作爲一款將高級建模技術與易用性相結合的數據挖掘工具,Clementine 可幫助您發現並預測數據中有趣且有價值的關係。可以將 Clementine 用於決策支持活動,如:

n  „ 創建客戶檔案並確定客戶生命週期價值。

n  „ 發現和預測組織內的欺詐行爲。

n  „ 確定和預測網站數據中有價值的序列。

n  „ 預測未來的銷售和增長趨勢。

n  „ 勾勒直接郵遞迴應和信用風險。

n  „ 進行客戶流失預測、分類和細分。

n  „ 自動處理大批量數據並發現其中的有用模式。

這些只是使用 Clementine 從數據中提取有價值信息的衆多方式的一部分。只要有數

據,且數據中正好包含所需信息,Clementine 基本上都能幫您找到問題的答案。3

 

2.2 Clementine界面

    2.2.1 主界面

   在安裝好後會自動啓用服務,一般的數據挖掘人員通過客戶端完成所有工作下面,就是clementine客戶端的界面: 


 

    2.2.2 各分區介紹

    流工作區 流工作區是 Clementine 窗口的最大區域,也是構建和操縱數據流的場所。

Clementine 中,可以在同一流工作區或通過打開新的流工作區一次處理多個流。會

話期間,流存儲在 Clementine 窗口右上角的“流”管理器中。


    選項板 選項板位於 Clementine 窗口的底部。每個選項板均包含可添加到數據流的

一個相關節點組。例如,“數據源”選項板包含可用來將數據讀入到模型中的的節

點;“圖形”選項板包含可用來可視化探索數據的節點。“收藏夾”選項板包含數

據挖掘人員頻繁使用的節點的默認列表。隨着對 Clementine 的熟悉,還可以自定

義供自己使用的內容。


    管理器 Clementine 窗口右上角有三種類型的管理器。每個選項卡(流、輸出和模

型)均用於查看和管理相應類型的對象。可以使用“流”選項卡打開、重命名、保存

和刪除在會話中創建的流。Clementine 輸出(如圖形和表)存儲在“輸出”選項卡

上。可直接從該管理保存輸出對象。“模型”選項卡是這幾個管理器選項卡中功能最

強大的,它包含在 Clementine 中進行的機器學習和建模的結果。這些模型可以直接

從“模型”選項卡上瀏覽或將其添加到工作區的流中。


    工程 工程窗口位於 Clementine 窗口右下角,它爲組織 Clementine 中的數據挖掘

工作提供了一個有效途徑。


    報告窗口 位於選項板下方,報告窗口提供各種操作的進度反饋,例如數據讀入數據流中的時間。

狀態窗口 也位於選項板下方,狀態窗口提供有關應用程序當前正在執行何種操作的信息以及需要用戶反饋時的指示信息。

 

2.3  spss數據挖掘技術

    2.3.1 預測技術4 實現方法:1. Neural Networks  2.Rule Induction  3. Linear & Logistic  Regression  4 . Sequence Detection

    2.3.2 聚類技術 4實現方法: 1.Kohonen網絡 2 K-means聚類 3 TWO-step聚類

    2.3.3 關聯技術 4實現方法: 1. APRIORI  2 GRI  3 CARMA

    2.3.4 實現模型

Technique

Method

Types

Classification

Rule Induction Classification and Regression Trees

Prediction

Neural Networks Regression

Linear & Logistic Regression

Segmentation

Kohonen Networks K-Means Clustering

Two-Step Clustering

Association

APRIORI GRI CARMA

Sequence

Capri Rule Induction

 

   2.3.5 實現流程(CRISP-DM過程5)

      CRISP-DM 模型爲一個KDD工程提供了一個完整的過程描述.該模型將一個KDD工程分爲6個不同的,但順序並非完全不變的階段.

     1: business understanding: 即商業理解. 在第一個階段我們必須從商業的角度上面瞭解項目的要求和最終目的是什麼. 並將這些目的與數據挖掘的定義以及結果結合起來.

     2.data understanding: 數據的理解以及收集,對可用的數據進行評估.

     3: data preperation: 數據的準備,對可用的原始數據進行一系列的組織以及清洗,使之達到建模需求.

     4:modeling: 即應用數據挖掘工具建立模型.

     5:evaluation: 對建立的模型進行評估,重點具體考慮得出的結果是否符合第一步的商業目的.

  6: deployment: 部署,即將其發現的結果以及過程組織成爲可讀文本形式.(數據挖掘報告)

 

2.4 Clmentine特色介紹(自己摸索,非完整版)

 

   1.通過單一節點即可完成部署,將數據流所進行的數據挖掘工作打包成套件輸出

   2.可隱藏其建立模型的方法與流程,避免知識外流

   3.可提供API供其他外部程序語言調用,,c++,c#,Java,VB

   4.具有SSL加密與密碼控制功能

 

 

3.      Clementine與其它工具的比較

選擇IBM Intelligent MinerSAS Enterprise Miner 作爲比較對象,因爲在Gartner客戶數據挖掘工具評估中,這三款軟件均有不俗的表現,下面就它們各個方面的數據和特點進行比較:

 

3.1   基本信息比較6

產品提供商  ClementineIntegral Solutions ltd.

            Intelligent MinerIBM

            SASSAS Institute Inc.

方法論      ClementineCRISP-DM

            Intelligent Miner:沒有提出什麼特別的方法論

            SASSEMMA方法論

商業理解    Clementine1)有豐富的客戶經驗,解決了廣泛的商業問題,並提供了一

            系列應用。 2)關鍵優勢是可以讓操作者把商業經驗結合到數據挖掘工作                                                                              

            的每一步驟。可通過可視化工作流範例輕鬆實現數據挖掘。                                                   

            Intelligent MinerIBM認爲數據挖掘對於大多數客戶是非常複雜的過程,     

            因此他們把軟件作爲一個大服務合同的一部分銷售,經常在整個合同中加    

            上一部分項目操作費用

            SAS:公司具 SAS有多年豐富的電信行業系統解決 BI方案

用戶界面    Clementine:通過連接節點的表示形式,模型在可視編程環境中被確定

            Intelligent Miner:通過使用複雜的數據可視化技術增強可用性

            SAS:每個步驟均有可視化界面

競爭能力    ClementineSPSS的核心競爭能力是通過各種分析技術來解決商業問題

            Intelligent Miner:具有強大的並行計算能力。IBM的主要市場是能夠支付

            大量的金錢並需要保證大規模數據挖掘結果的組織

            SASSAS爲國際標準數理統計分析軟件,數據挖掘工具統計分析功能                   

            強大

    成本       Clementine1SPSS 定位於任何人 只要得到正確的產品和培訓就可以自  

            由操作數據挖掘。通過很短時間的培訓,可以讓用戶自由掌握數據挖掘的   

            過程和各種操作。  2)低成本的維護和模型升級支出。沒有額外的費用  

            支出。3Clementine 關注節省時間的解決方案過程

            Intelligent Miner1 針對擁有重要資源來投入銷售和市場營銷的大型組

            織,IBM經常提供軟件來獲得諮詢收入。2)有時甚至會提供免費的軟件

            和諮詢來提高硬件銷售收入

            SAS1)昂貴,採用租賃方式。 2)操作複雜要求是高級統計分析專業

            人員,結果難以理解

    數據準備   ClementineClementine Server設置了全部的數據挖掘過程,包括大量的

            數據準備功能,不需要通過查詢來處理 SQL數據

            Intelligent Miner1)沒有數據準備或數據管理能力。此功能讓DB2的有

            限數據管理功能來實現,當客戶要對數據進行處理,但是沒有DB2 則需要

            購買並轉向 DB22 DB2的數據管理功能 不是專門爲分析而設計的

               SAS:設置了全部的數據挖掘過程,包括數據準備

    模型與算法 Clementine1)以可視化工作流的 方式在分析能力上提供了巨大的收穫。

               2 提供各種現在提到的技術,更重要的是,可以讓用戶非常容易地結合 

               模型將結果做爲數據集的一部分直接應用。  3)包含CEMI技術可能使用

               戶插入第三方的算法

               Intelligent Miner:幾乎沒有統計方法,限制了數據挖掘的能力,特別在模   

               型驗證方面

               SAS:提供幾乎所有的成熟數據挖掘方法,可以將其具有強大功能的SAS/

               STAT SAS/ETS等模塊提供的統計分析模型和時間序列分析模型也嵌入其

              

     評估      Clementine1)使用戶能嘗試許多模型或者將模型混合應用來得到一致的         

               高質量結果。 2)通過證明,Clementine在模型正確性方面比競爭對手做

               得更好。3)因爲預測值和置信度被寫回數據集,結果非常容易理解。一些

               圖形展示技巧如PLOT圖和馬賽克圖通常被用來驗證模型

               Intelligent Miner:提供了大量具體定義每個數據挖掘技術的高級參數,例

               如:最小支持度和置信度因素(關聯和順序模式)、期望的準確率(神經元

               網絡)以及簇的最大和期望的數量(聚類)

               SASSAS/EM 評價工具,提供了一個通用的數據挖掘評價的架構,可以

               比較不同的模型效果和預報各種不同類型分析工具的結果

     模型發佈  ClementineClementine Solution Publishe使分析人員能夠輸出全部的數據

               挖掘過程。發佈模型和升級模型既容易也經濟。 Clementine也可將模型

               輸出到CSQL語言,通過編程來實現應用

               Intelligent Miner:具有大量能被用來開發用戶數據挖掘應用程序的編程接

               口;所有的數據挖掘引擎和數據操縱函數能通過共享C++ 庫被訪問

               SAS: 採用獨有的SCL語言,後臺採用 Data步、Proc 步方式 開發,編制                                                                                                        

               分析程序包發佈

 

3.2 三種工具的量化比較7

3.2.1 數據存取


3.2.2 數據處理


3.2.3 模型算法


3.2.4 自動建模


3.2.5 可視化技術

3.2.6 其他


3.2.7 總分


 

 

4.      Clementine實例解析

 

4.1 定義數據源

選擇經自己簡單修改的使用度很高的weather.csv數據集6作爲實例數據源,該數據機有以下幾個屬性值:

Outlook 景色景緻 取值範圍:{overcast   sunny  rainy}

Temperature 溫度氣溫 取值範圍:[64,85]

humidity 溼度 取值範圍:[65,96]

Windy 是否有風 取值範圍:[true,false]

Play 是否打羽毛球 取值範圍:[yes,no]

下圖即爲該數據庫表示:


4.2 理解數據源

通過屬性值名稱我們可以大致猜想到這個數據集是有關於適宜於進行戶外羽毛球運動的天氣情況的統計,所以需要通過決策樹構建分類關係,擬採用C5算法模板訓練出最優決策樹。

4.3準備數據

新建流文件,將可變文件拖入流工作區,如圖:

 

雙擊圖標,將weather.csv導入數據源:


定義數據類型,選擇play作爲輸出,其他屬性均爲天氣情況,故均爲輸入:


4.4 建模

將項目板中的C5模板拖入流工作區,從數據源圖標拖出箭頭指向C5圖標:

   

點擊流工作區上方菜單欄中的run執行,並會在管理器的模型中顯示建立了一個新的模型,這就是我們通過模板訓練出的模型:


4.5模型評估

將模型拖入流工作區,並連接chart模塊輸出表與預測表:


表與預測表的比較:


雙擊模型圖標可查看各種統計信息,如樹狀圖、訓練概要、構建設置、置信度和支持度等:

 

          

結果分析報告      

輸出字段 play 的結果

 總結果

           比較 $C-play play

                    正確            13   92.86%

                    錯誤             1    7.14%

                    總計            14        

 

                    $CC-play 的置信度值報告

                             範圍                          0.75 - 0.818

                             平均正確性                              0.803

                             平均不正確性                             0.818

                             始終正確的置信度高於               0.818 (觀測值的 0%

                             始終錯誤的置信度低於                0.75 (觀測值的 0%

                             92.86% 以上的準確性                        0.0

2.0   以上的摺疊正確性                    從未達到需求等級

4.6部署模型

Export組件都可以使用Publish發佈數據流,這裏會產生兩個文件,一個是pim文件,一個是par文件。pim文件保存流的所有信息,par文件保存參數。有了這兩個文件就可以使用clemrun.exe來執行流,clemrun.exeClementine Solution Publisher的執行程序。Clementine Solution Publisher是需要單獨授權的8

 

 

5  Clementine之我觀

 

  在對clementine有了一段時間的接觸和了解並與其它數據挖掘軟件做了對比之後,我深深的體會到了它的嚴謹和實用。不管是用戶界面的易操作性還是支持平臺的通用性,它都是從終端用戶角度出發,儘量做到讓任何人在極短的時間內在普通的機器上學習掌握這一強大的數據挖掘工具完成相應工作;還有它CRISP-DM方法論的科學嚴謹、模型發佈的安全簡捷、建模技術與算法的完備易行更支持用戶插入第三方算法,無不體現出Clementine作爲數據挖掘市場佔有率最高的領先者的強大,這種強大不知體現在技術方面,更多是其人性化的設計和創新。沒有最好只有更好,如果我有幸成爲Clementine開發者中的一員,我會從一下幾個方面對其進行改進:

1.       構建一個功能強大的嚮導系統,在用戶點擊進入Clementine之後,即開始服務,這樣用戶就無需尋找其他說明文檔即可熟練操作。

2.       將各種模型的提升圖,ROC圖等在一個頁面顯示,Clementine中各種模型的提升圖,ROC圖都是分別顯示的,各自爲政,這樣很不利於選出更好的模型和保證模型的質量。

3.       做出更多的圖形高級顯示,如SAS中的3D旋轉圖、等高線圖等。

4.       支持更多的文件格式,如arffEXCEL等。

5.       在幫助文檔中加入更多關於算法的介紹,現有的幫助文檔只涉及到軟件使用上。

References:

[1] U. Fayyad, G. Piatetsky-Shapiro, R. Smyth.  Knowledge discovery and data mining: Towards aunifying framework. In: Proc. KDD’96, Portland, OR, 82-88.

[2] . 機器學習與數據挖掘.  http://cs.nju.edu.cn.  南京大學計算機軟件新技術國家重點實驗室,南京

[3] Clementine®11.1 ClementineUsersGuide

[4] C. R. Thulasi Kumar C. R. Thulasi Kumar, SPSS Clementine for Data Mining  SPSS Clementine for Data Mining in Institutional Research in Institutional Research, University of Northern Iowa University of Northern Iowa, November 10 November 10- -12, 2004

[4] http://www.spss.com

[5] http://www.crisp-dm.org

[6] 張雪英. 國外先進數據挖掘工具的比較分析. 計 算 機 工 程. 2003,29 卷第16.

[6] Berson A .  奇譯. 構建面向CRM 的數據挖掘應用.  北京:人民郵電出版社,200108

[6] Elder J F, Abbott D W.A Comparison of Leading Data Mining Tools .     KDD-98

[6] http://www.datamininglab.com

[7] http://www.dwway.com

[8]Clementine®11.1 ClementineScriptingAutomationCEMI

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章