數據挖掘標準規範之CRISP-DM基礎

原創

2018-09-12 03:03

一、前言

　　每每提到數據挖掘，總有些人上來就是ETL、是算法、是數學模型，作爲搞工程實施的我而言，很是頭疼。其實作爲數據挖掘的而言，算法只是其實現手段、是工具和實現手段而已，我們不是在創造算法（國外職業搞研究的除外），我們是在使用算法而已，換句話說我們是算法的工程化實踐者。數據挖掘非今日之物，大數據挖掘也不是一個孤立的概念，其實質還是採用傳統的數據挖掘的方法，只是其實現工具發生了變化而已，本質的東西還在。引入發佈近20年前的 CRISP-DM數據挖掘標準規範模型，供大家共享，希望能有人喜歡。

二、框架

三、詳述

3.1 業務理解（Business Understanding）

最初的階段集中在理解項目目標和從業務的角度理解需求，同時將這個知識轉化爲數據挖掘問題的定義和完成目標的初步計劃。

3.2 數據理解（Data Understanding）

數據理解階段從初始的數據收集開始，通過一些活動的處理，目的是熟悉數據，識別數據的質量問題，首次發現數據的內部屬性，或是探測引起興趣的子集去形成隱含信息的假設。

3.3 數據準備（Data Preparation）

數據準備階段包括從未處理的數據中構造最終數據集的所有活動。這些數據將是模型工具的輸入值。這個階段的任務能執行多次，沒有任何規定的順序。任務包括表、記錄和屬性的選擇，以及爲模型工具轉換和清洗數據。

3.4 建模（Modeling）

在這個階段，可以選擇和應用不同的模型技術，模型參數被調整到最佳的數值。一般，有些技術可以解決一類相同的數據挖掘問題。有些技術在數據形成上有特殊要求，因此需要經常跳回到數據準備階段。

3.5 評估（Evaluation）

到這個階段，你已經從數據分析的角度建立了一個高質量顯示的模型。在開始最後部署模型之前，重要的事情是徹底地評估模型，檢查構造模型的步驟，確保模型可以完成業務目標。這個階段的關鍵目的是確定是否有重要業務問題沒有被充分的考慮。在這個階段結束後，一個數據挖掘結果使用的決定必須達成。

3.6 部署（Deployment）

通常，模型的創建不是項目的結束。模型的作用是從數據中找到知識，獲得的知識需要便於用戶使用的方式重新組織和展現。根據需求，這個階段可以產生簡單的報告，或是實現一個比較複雜的、可重複的數據挖掘過程。在很多案例中，這個階段是由客戶而不是數據分析人員承擔部署的工作。

四、總結

　　從以上流程和規範我們可以看到，算法實現過程，其實只佔了數據挖掘的一部分，真正要想實現數據挖掘，並達到數據挖掘的目標，我們需要做的事情還有很多。

　　莫愁前路無知己，夜暗自有早行人。數據挖掘技術交流請加：大數據架構師技術交流：347018601

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據挖掘標準規範之CRISP-DM基礎

Wireshark 安裝+使用（一）

Python+Flask + Echarts + Bootstrap打造漂亮的疫情監控系統

NBA籃球圖文直播室之數據排行榜

Hadoop在銀行業的應用實戰三思考

13行代碼實現：Python實時視頻採集（附源碼）

人臉識別完整項目實戰（3）：項目系統架構設計

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結