數據挖掘標準規範之CRISP-DM基礎

一、前言

  每每提到數據挖掘,總有些人上來就是ETL、是算法、是數學模型,作爲搞工程實施的我而言,很是頭疼。其實作爲數據挖掘的而言,算法只是其實現 手段、是工具和實現手段而已,我們不是在創造算法(國外職業搞研究的除外),我們是在使用算法而已,換句話說我們是算法的工程化實踐者。數據挖掘非今日之 物,大數據挖掘也不是一個孤立的概念,其實質還是採用傳統的數據挖掘的方法,只是其實現工具發生了變化而已,本質的東西還在。引入發佈近20年前的 CRISP-DM數據挖掘標準規範模型,供大家共享,希望能有人喜歡。

二、框架

wKiom1Qnf-jwuEpRAAB6ieK-Myw156.gif

三、詳述

3.1 業務理解(Business Understanding)

   最初的階段集中在理解項目目標和從業務的角度理解需求,同時將這個知識轉化爲數據挖掘問題的定義和完成目標的初步計劃。

3.2  數據理解(Data Understanding)

   數據理解階段從初始的數據收集開始,通過一些活動的處理,目的是熟悉數據,識別數據的質量問題,首次發現數據的內部屬性,或是探測引起興趣的子集去形成隱含信息的假設。

3.3  數據準備(Data Preparation)

   數據準備階段包括從未處理的數據中構造最終數據集的所有活動。這些數據將是模型工具的輸入值。這個階段的任務能執行多次,沒有任何規定的順序。任務包括表、記錄和屬性的選擇,以及爲模型工具轉換和清洗數據。

3.4  建模(Modeling)

   在這個階段,可以選擇和應用不同的模型技術,模型參數被調整到最佳的數值。一般,有些技術可以解決一類相同的數據挖掘問題。有些技術在數據形成上有特殊要求,因此需要經常跳回到數據準備階段。

3.5  評估(Evaluation)

  到這個階段,你已經從數據分析的角度建立了一個高質量顯示的模型。在開始最後部署模型之前,重要的事情是徹底地評估模型,檢查構造模型的步驟,確保 模型可以完成業務目標。這個階段的關鍵目的是確定是否有重要業務問題沒有被充分的考慮。在這個階段結束後,一個數據挖掘結果使用的決定必須達成。

3.6  部署(Deployment)

   通常,模型的創建不是項目的結束。模型的作用是從數據中找到知識,獲得的知識需要便於用戶使用的方式重新組織和展現。根據需求,這個階段可以產生簡 單的報告,或是實現一個比較複雜的、可重複的數據挖掘過程。在很多案例中,這個階段是由客戶而不是數據分析人員承擔部署的工作。

四、總結

  從以上流程和規範我們可以看到,算法實現過程,其實只佔了數據挖掘的一部分,真正要想實現數據挖掘,並達到數據挖掘的目標,我們需要做的事情還有很多。

  莫愁前路無知己,夜暗自有早行人。數據挖掘技術交流請加:大數據架構師技術交流:347018601


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章