如何快速完成一個數據挖掘分析項目？—企業數據挖掘成功之道（方法篇）

引子：通過上週的文章，大家應該已經對“數據挖掘”有了一個更清晰全面的認識。哪些在具體業務中，如何有效應用，快速落地一個項目應用實踐呢？今天我們將以一個行業實際案例爲主，依據“數據挖掘方法論”【詳細可參閱歷史文章《數據挖掘方法論》】爲大家詳細解析，如何快速完成一個項目應用實踐，通過數據挖掘技術和方法，獲取業務應用價值。

數據挖掘方法論爲開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分爲六個階段，其中包括業務理解(business understanding），數據理解 (data understanding），數據準備(data preparation)，建立模型(modeling），評估模型(evaluation)和結果部署(deployment)。

那麼，在一個實際的數據挖掘工作中，如何落地實踐這套挖掘方法論呢？下面我們將以“公募基金精準營銷”爲例，詳細介紹數據挖掘項目開展流程和步驟【建模工具採用：TempoAI完成】。

階段一：業務理解(business understanding）
業務背景：券商發行的公募基金產品，傳統的營銷方式爲外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點：

工作量巨大，因爲是用全量客戶名單來打電話營銷：開展10萬人次外呼營銷任務，要4個外呼人員1年的工作量；
意向成功率過低，平均接通率54%，意向成功率18.09%左右。

涉及部門：信息技術部、營銷部、客服部（外呼中心）
業務目標：提升意向成功率，優化外呼營銷策略，切實增加意向成功用戶數，提高投入產出率。
分析方案：

分類預測：構建潛客預測模型，預測高概率購買公募基金的潛在客戶，爲券商提供精準營銷客戶名單。
分析成果驗證：將分析產生的預測會夠買的人員名單，提供給外呼中心，進行外呼推薦公募基金產品，最終將推薦名單外呼和傳統的外呼效果進行比對，對比外呼成功率，從而判斷分析成果是否顯著。

階段二：數據理解 (data understanding）
收集的數據表信息包括：
•借記卡用戶基本信息表
•信用卡用戶基本信息表、用戶狀態標識代碼表
•信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
•信用卡交易流水信息表
•用戶的業務信息表
•公共信息表：商戶代碼MCC碼錶、用戶職業代碼表等
•歷史外呼反饋信息表
•信用卡違約狀態及未還款的歷史數據
•設備信息
針對收集到的數據信息，進行數據理解：
用戶特徵探索：待營銷用戶羣體的分佈形態，營業部分佈，性別分佈，風險等級分佈及業務開通情況。

階段三：數據準備(data preparation)
數據準備工作包括爲建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裏主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。
TempoAI數據處理：

階段四：建立模型(modeling）
基於用戶基本信息如風險等級、開戶年限、年齡等，資產信息如總資產、近一年最大資產、近半年日均資產等，產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例，構建用戶公募基金潛客預測模型，基於該模型，可以預測高概率購買公募基金的潛在客戶，爲券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下：

建模步驟說明：
（1）讀取數據
拖入關係數據庫輸入節點，選擇數據源，選擇購買公募基金用戶的歷史數據集，完成數據讀取。
（2）設置角色
在設置角色節點，選擇參與模型訓練的變量設置自變量（影響因素）和因變量（預測變量）。
自變量爲：用戶基本信息/資產信息及產品交易信息等字段；
因變量爲：flag(是否購買公募基金，1代表購買，0代表不夠買)。
（3）數據拆分
爲了保證模型的可靠性，我們一般將原始數據集拆分成兩個或三個數據集，這裏我們拆分爲兩部分：一部分用於訓練模型，另外一部分用於測試模型的泛化能力（預測能力）。如下圖所示，70%的數據作爲訓練集 30%的數據作爲測試集。
（4）梯度提升決策樹
選擇一個分類算法，構建分類模型，這裏我們選擇梯度提升決策樹算法，將數據拆分後的訓練集接入算法，參數設置如下：

（5）訓練集分類評估
將算法的M端口和D端口連接一個分類評估節點，評估訓練集的預測效果。分類評估節點參數設置如下：

（6）模型利用
將算法輸出的M端口連接模型利用節點，同時將數據拆分後的測試集D端口接入模型利用，這裏將利用梯度提升決策樹產生的模型對測試數據集進行預測。
（7）測試集分類評估
將模型利用輸出的M端口和D端口連接一個分類評估節點，評估測試集的預測效果。
（8）模型輸出
將訓練好的模型輸出到模型庫。
（9）連接END端點，完成流程構建，點擊執行。

階段五：評估模型(evaluation)

評估模型，指在此階段，需要從技術層面判斷模型效果以及從業務層面判斷模型在實際商業環境當中的實用性。
流程執行成功後，可在洞察頁面，查看流程執行的結果：

這裏我們主要看分類模型評估結果及分類模型預測結果。
點擊“梯度提升決策樹節點”查看分類模型內容及預測結果數據集：
下圖爲模型內容：決策樹及層級說明信息

下圖爲預測結果數據集信息：可從業務角度評估預測結果的合理性。

點擊“分類評估節點”查看分類評估結果（包括訓練集評估和測試集評估）
訓練集評估結果：包括模型的準確率、混淆矩陣、ROC/PR、Lift曲線、Gains曲線、基尼係數、K-S曲線。綜合各評估指標及曲線，模型評估效果較好。

測試集評估結果：如下圖

階段六：結果部署(deployment)
經過模型訓練和模型測試，得到了比較理想的預測模型。需要將模型的成果書面化，結合前幾個階段進行總結，形成數據“分析報告”。如果涉及到工程化應用，還需要將模型發佈成不同方式（調度、同步/異步服務API、實時服務等），供其它業務系統進行整合，形成最終的決策應用系統，需要“部署應用”。
分析報告
TempoAI洞察頁面，支持直接導出Word格式的完整挖掘流程建模分析報告。如下圖所示：

部署應用
構建一個預測流程，利用訓練好的模型，然後把預測流程發佈，並部署爲應用。
（1）構建預測流程
將要預測的數據作爲數據源，讀取並利用已輸出的分類預測模型，構建預測流程。如下所示：

（2）發佈預測流程
進入“部署”“-“發佈”，將預測流程發佈。
（3）構建調度
在“部署”-“應用”，將已發佈的預測流程構建調度任務。平臺提供任務調度器，可配置調度任務，將的一個或多個流程在指定的日期範圍內按一定的頻率定期執行，完成預測任務。如下所示：

（4）構建服務
在“部署”-“應用”，用戶可將已發佈流程構建一個服務，根據流程數據源的不同，分爲同步服務、異步服務和流服務。同步服務：支持第三方系統通過Thrift/Rest調用流程，實時返回預測結果。異步服務：支持第三方系統通過Rest調用流程，按照指定頻率定期執行，完成模型構建或數據預測，預測結果輸入到指定數據庫。流服務：開啓服務，當Kafka的隊列中有消息時，即可執行流程，完成對於流式數據的實時處理。
（5）服務調用
第三方系統可調用相應的API，通過在第三方系統輸入參數，調用服務，並返回服務的執行狀態。
調用方式：打開該服務的測試頁面，“下載示例代碼”、“下載SDK”。將下載的示例代碼文件中的代碼段複製粘貼，即可通過運行代碼調用該異步服務。調用接口可供營銷業務系統進行整合，形成最終的決策應用系統，給營銷外呼中心提供營銷名單，指導實際業務的開展。
（6）部署結果驗證
將預測分析產生的預測夠買人員名單，提供給外呼中心，進行外呼推薦公募基金產品，最終將推薦名單外呼和傳統的外呼效果進行比對，對比結果如下：推薦外呼11天，撥打5877通電話（佔傳統外呼36.01%），得到意向客戶數1664個，是傳統外呼開展32天的整體意向客戶數的1.08倍。結合營銷活動的成本和成果兩個方面考慮，綜合效果提升3.14倍。

如何快速完成一個數據挖掘分析項目？—企業數據挖掘成功之道（方法篇）

IDC機器學習平臺市場持續領跑，TempoAI行業表現搶眼

【揭祕】21世紀最性感的職業：APP裏的“智能推薦”藏着它

第11個11.11會突破2500億嗎？

機器學習告訴你，新型冠狀病毒接下來將如何變異?

不懂編程也能做AI建模？自動學習功能讓你大開眼界！

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結