數據挖掘的標準流程

原創

2020-07-06 00:33

CRISP-DM (cross-industry standard process for data mining), 即爲"跨行業數據挖掘過程標準". 此KDD過程模型於1999年歐盟機構聯合起草. 通過近幾年的發展,CRISP-DM 模型在各種KDD過程模型中佔據領先位置,採用量達到近60%.(數據引自Cios and Kurgan於2005年合著的論文trands in data mining and knowledge discovery中 ) 在1996年，當時數據挖掘市場是年輕而不成熟的，但是這個市場顯示了爆炸式的增長。三個在這方面經驗豐富的公司DaimlerChrysler、SPSS、NCR發起建立一個社團，目的建立數據挖掘方法和過程的標準。在獲得了EC（European Commission）的資助後，他們開始實現他們的目標。爲了徵集業界廣泛的意見共享知識，他們創建了CRISP-DM Special Interest Group（簡稱爲SIG）。
大概在1999年，SIG（CRISP-DM Special Interest Group）組織開發並提煉出CRISP-DM，同時在Mercedes-Benz和OHRA（保險領域）企業進行了大規模數據挖掘項目的實際試用。SIG還將CRISP-DM和商業數據挖掘工具集成起來。SIG組織目前在倫敦、紐約、布魯塞爾已經發展到200多個成員。2000年，CRISP-DM 1.0版正式推出，應該說CRISP-DM是實際項目的經驗總結和理論抽象。 CRISP-DM強調，DM不單是數據的組織或者呈現，也不僅是數據分析和統計建模，而是一個從理解業務需求、尋求解決方案到接受實踐檢驗的完整過程。

CRISP-DM的六個階段

CRISP-DM過程描述

　　CRISP-DM 模型爲一個KDD工程提供了一個完整的過程描述。一個數據挖掘項目的生命週期包含六個階段。這六個階段的順序是不固定的，我們經常需要前後調整這些階段。這依賴每個階段或是階段中特定任務的產出物是否是下一個階段必須的輸入。上圖中箭頭指出了最重要的和依賴度高的階段關係。

上圖的外圈象徵數據挖掘自身的循環本質――在一個解決方案發布之後一個數據挖掘的過程纔可以繼續。在這個過程中得到的知識可以觸發新的，經常是更聚焦的商業問題。後續的過程可以從前一個過程得到益處。

業務理解（Business Understanding）

最初的階段集中在理解項目目標和從業務的角度理解需求，同時將這個知識轉化爲數據挖掘問題的定義和完成目標的初步計劃。

數據理解（Data Understanding）

數據理解階段從初始的數據收集開始，通過一些活動的處理，目的是熟悉數據，識別數據的質量問題，首次發現數據的內部屬性，或是探測引起興趣的子集去形成隱含信息的假設。

數據準備（Data Preparation）

數據準備階段包括從未處理數據中構造最終數據集的所有活動。這些數據將是模型工具的輸入值。這個階段的任務有個能執行多次，沒有任何規定的順序。任務包括表、記錄和屬性的選擇，以及爲模型工具轉換和清洗數據。

建模（Modeling）

在這個階段，可以選擇和應用不同的模型技術，模型參數被調整到最佳的數值。一般，有些技術可以解決一類相同的數據挖掘問題。有些技術在數據形成上有特殊要求，因此需要經常跳回到數據準備階段。

評估（Evaluation）

到項目的這個階段，你已經從數據分析的角度建立了一個高質量顯示的模型。在開始最後部署模型之前，重要的事情是徹底地評估模型，檢查構造模型的步驟，確保模型可以完成業務目標。這個階段的關鍵目的是確定是否有重要業務問題沒有被充分的考慮。在這個階段結束後，一個數據挖掘結果使用的決定必須達成。

部署（Deployment）

通常，模型的創建不是項目的結束。模型的作用是從數據中找到知識，獲得的知識需要便於用戶使用的方式重新組織和展現。根據需求，這個階段可以產生簡單的報告，或是實現一個比較複雜的、可重複的數據挖掘過程。在很多案例中，這個階段是由客戶而不是數據分析人員承擔部署的工作。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據挖掘的標準流程

CRISP-DM過程描述

業務理解（Business Understanding）

數據理解（Data Understanding）

數據準備（Data Preparation）

建模（Modeling）

評估（Evaluation）

部署（Deployment）

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

MySQL統計函數記錄——GROUP_CONCAT()函數

數據挖掘的標準流程

MySQL統計函數記錄——數值函數

R入門25招

Mahout中相似度計算方法介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結