企業信息化如何發揮數據挖掘的效力(收藏）

我國的銀行、證券、電信、保險行業都在大談“數據集中”，希望在此基礎上實現客戶關係管理和商業智能。“數據挖掘工程師”這個新穎的職位名稱，也隱約出現在企業的招聘職位欄裏。

數據挖掘到底有沒有用？一些企業的領導人對此懷有疑慮。數據挖掘人員口裏唸叨的是一些稀奇古怪的技術名詞，他們的出身複雜，即不完全是學計算機的，也不像統計學家，更不是營銷策劃人員，他們得到的結果不容易理解，他們的工作對我的企業發展到底意味着什麼？一些技術出身的管理者可能會熱捧數據挖掘，希望從中儘快找出新的商業模式，找到新的賺錢機會；而商業直覺強烈的管理者則容易牴觸這種精確的定量分析方法，數據挖掘本身的缺陷也導致它容易遭受攻擊。

爲了更好地發揮數據挖掘的效力，需要的是企業管理者的理解、數據挖掘人員的更多努力。本文作者根據過去數據挖掘項目的經驗，試圖對一些混淆不清的問題做出解釋。

1.結果的應用

問題：數據挖掘的結果有一部分是以概率數據的形式提交的，這是最容易招致非議的地方。企業管理者可能會問，我要你對我的客戶流失做出預測，爲什麼你不能準確地告訴我究竟是哪些客戶下個月會流失？而只能告訴我每個客戶流失的概率。我要你預測哪些客戶會發生保險欺詐，你提交的仍然是客戶騙保的概率。這樣的概率值我如何使用，我敢用嗎？

解釋：數據挖掘建立的預測模型，是對真實世界的近似，原因是企業客戶數據庫中儲存的客戶的行爲信息是不可能面面俱到的，可能沒有蒐集儲存到的那些客戶信息恰恰是與客戶是否流失或騙保最相關的信息，因此依據已有的信息建立的預測模型是不精確的，得不出確定性結果，而只能是概率值。這樣的結果仍然是有用的，因爲預測出來的那些流失概率高的客戶中，實際流失的往往特別多，企業重點對這部分客戶實施挽留維繫，針對性就特別強，能節省企業的資源開銷。同樣，欺詐概率較高的客戶中，實際發生欺詐行爲的比率也比別的客戶羣體中高出很多，因此專門的調查人員可以重點對這些客戶進行調查，往往事半功倍。資源的節省，即意味着效益的增長。

2. 變量的選擇

問題：建立預測模型是一個很吸引人的想法。預測的目標比較好確定，你要預測客戶流失，那麼“客戶是否流失”（二值變量）就是目標變量；你要預測股票的漲跌，那麼“收市價是否上升”就是目標變量。但是如何確定哪些變量作爲自變量（回想一下高中代數中關於函數的定義），則頗費周折。換句話說，要確定哪些因素與目標變量有關係，往往是見仁見智。這個問題解決不好，則會直接影響預測模型的性能。那麼，究竟應該是企業業務人員來決定，還是數據挖掘人員決定呢？

解釋：最佳的方式是雙方的結合。企業業務人員長期的業務經驗，使他們能夠敏銳地感覺到哪些因素與目標變量密切相關。但是經驗是有侷限的，甚至束縛人的思維，企業業務人員會遺漏很多表面無關但實際上很重要的因素，而且因爲人腦的處理能力有限，有時不得不忽略一些因素及一些因素之間的複雜微妙的相互影響，而這正是數據挖掘人員可以發揮作用的地方。統計學中有大量的成熟的方法，可以幫助我們挑選合適的變量來構造我們的預測模型。

還有一種常見的現象：數據挖掘人員挑選的某個變量，事後發現對模型精度的提高很有好處，但是可能得不到合理的業務解釋，這時候，企業業務人員會要求刪除這個變量。實際上，數據挖掘的結果常常超出我們的想象，我們的本能就是趨向於拒絕無法理解的東西，甚至冒着損害模型預測性能的風險--這種做法是有害的，因爲當前無法解釋並不意味着以後也無法解釋（據說沃爾瑪的“啤酒與尿布”的規則發現也是事後輔之以市場調研纔得到解釋的）；數據挖掘結果並不是憑空得來，而是藉助於上千年來人類發展的數學理論在無數次證實有效的複雜算法基礎上得到的，不能簡單地予以否定；更何況，如果這個變量進入預測模型，被證明是有利於模型精度的，則去掉是很可惜的。不要忘記“實踐是檢驗真
理的唯一標準”這一基本法則。

3.對“提升度（lift）”的迷信

問題：在對預測模型的性能評估有所瞭解後，企業業務人員可能經常會問數據挖掘工程師：“你的模型的提升度是多少？”似乎低於3.0就是一個壞模型。那麼究竟要達到多少才能夠接受呢？

解釋：提升度是衡量預測模型的一個重要指標，但不是唯一的。我們還有混合矩陣、響應捕獲率、ROC曲線、基於門限的診斷圖等等。不同行業的模型提升度是不同的，同一行業的不同地區也可能不同。我們曾經試驗過，用大致相同的自變量因素預測手機用戶流失，在廣東某地的模型的提升度只有2.2，而該模型在另一個時段應用時的提升度高達5.2，而在湖北某地能達到7.0。因此，模型的接受程度不能僅以提升度爲標準，而應該以其預測結果能創造的效益來衡量，計算其投資回報率。但是，數據挖掘人員應該主動想辦法，嘗試不同的增強辦法，在不導致模型發生“過擬合”（Overfitting）的前提下，儘量提高模型的預測精度，因爲模型精度的一個百分點上升，就可能意味着商家的上百萬元的增收節支。

4.細分的目的性

問題：數據挖掘產生的客戶細分，與傳統的經驗細分相比，能夠考慮客戶更多的行爲屬性，得到更豐富的細分可能性，每個客戶羣體具有更鮮明的行爲特徵。但是，什麼樣的客戶細分結果纔是好的？將客戶分成多少個羣體是最合適的？羣體之間的人數相差懸殊是否就是一個很差的細分結果？

解釋：預測性模型的好壞有很多衡量指標，但客戶細分的模型性能則沒有一定的衡量標準。事先我們並不知道一個客戶應該屬於哪個羣體。客戶的細分模型的好壞，更多地要從業務角度來評判。將客戶分成上百個羣體，確實能夠達到更細緻地瞭解各羣體客戶的目的，但是我們的客戶經理顧得過來嗎？現有的客戶管理系統能夠支持這麼多客戶羣體的處理嗎？如果不能，則要量力而行少分幾個羣體。羣體之間的人數有時相差很大，可能是客戶總體中確實是有某些大羣大羣的客戶的行爲很接近，同時也有一些小羣小羣的客戶展示出相同的行爲特徵，這些人少的客戶羣體可能是具有異常行爲的一組人，例如，具有欺詐行爲特徵的羣體。如果業務處理上關係（例如，規定每個客戶經理負責大致相等數量的客戶），企業常常會要求將各個羣體的人數細分得比較均勻一點，這時同一羣體中客戶特徵的相似性會受到一點損害。

另外，因爲數據挖掘工具的強大，數據挖掘人員可能會着迷於提出一大堆的細分結果，而忽視細分的目的，而企業業務人員則可能以爲這些細分就是定論，不能再做調整。最佳的做法，應該是企業業務人員和數據挖掘人員的緊密交互，根據業務需求確定細分方案，並嘗試多種調整，從中選擇一種合理合適的方案和結果。例如，如果想重點對客戶的長途通話行爲予以細分，則可以多選取與長途有關的因素作爲細分變量，甚至將這些變量乘以某個權重因子，更加強調它們的作用。

5.工具的選擇

問題：數據挖掘工具的昂貴性是衆所周知的。貴的有數百萬元一套供租用兩年的，便宜的有數十萬元購買的。如何選擇？

解釋：應該根據企業的需求、預算、使用人員素質等方面來確定。如果每年需要建立數百個模型、數據和模型的管理非常複雜，數據挖掘的預期效益非常大，使用人員具有很好的理論基礎和應用水平，則應該選擇功能強大、靈活快捷的挖掘工具；否則應該考慮那些功能相對單一、套件式的工具產品。企業可以留意一些諮詢機構推出的挖掘軟件評測報告。值得一提的是，國外流行的一些免費軟件，如ADE-4、Lisp-Stat、R等，也逐步被國內人士認識並使用。其中的R是一種獨立的編程軟件，具有衆多的程序包（Packages）可供調用，其開發靈活性幾乎不亞於如同SAS這樣的巨型商業軟件，但是對使用人員具有較高的要求。

6.不是“挖掘”能解決的問題

問題：企業界由於長期缺乏定量分析的傳統，在向分析人員提出業務需求時，並不是按照是否屬於數據挖掘範疇來劃分的。例如，企業可能會提出如何優化自己的網絡資源，如何對有衆多隨機因素的不確定系統（物流、工廠供應鏈、排隊系統等）提出最優的操作方案，如何根據現狀推演未來的市場份額變化和競爭優勢。數據挖掘能夠勝任這些工作嗎？

解釋：學術意義上，這些都不屬於數據挖掘的領域，而分別屬於運籌學、離散事件仿真、系統動力學仿真的領域。這些技術在目前我國企業的應用很少，數據挖掘人員應該擴展自己的陣地，將自己的統計分析能力和數據建模能力往前推進一步，滿足企業的新的需要。例如，電信行業時常談論的“營銷預演”，即在營銷方案實施之前就能預知結果，從而事先調整好方案，以追求最佳的效果，實際上是一個典型的競爭動力學仿真問題，。這樣的問題，需要考慮時間因素，考慮因素之間的正、負反饋，對各種因素的相互作用建立起結構化模型，經過校驗後，用於實際場景的預測。由於是在計算機上運行的模型，企業管理者可以無風險地在模型上試驗自己的任何想法，檢驗各種因素調整對效益的影響，檢驗對競爭對手的反應是否恰當，及自己的行爲對市場環境會造成什麼影響。

總之，數據挖掘連同其它的數學建模方法，對我國企業界挖潛革新、多創效益，將發揮越來越顯著的作用。這將依賴於企業業務人員和數據挖掘人員和其它類分析人員的艱苦探索。
Author：嶽亞丁

企業信息化如何發揮數據挖掘的效力(收藏）

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

微軟的測試題和費米問題

中國智慧--24例管理典藏案例

生命之花美麗鮮豔--病中懷念一位朋友

C#中操作Excel的方法（一）

ASP.NET中上傳文件的方法（一）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結