AI時代,數據挖掘過時了嗎?—企業數據挖掘成功之道(理論篇)

大數據時代、人工智能時代,機器學習、人工智能、深度學習、集成學習……概念漫天飛,數據挖掘似乎成爲一個過時技術和概念。今天小編結合多年專業學習與研究經驗,從實踐應用的角度重新梳理一下“數據挖掘”,讓您能夠拋開概念瞭解本質!
數據挖掘(Data Mining)隸屬於知識發現(KDD)的範疇,是(劃重點)基於人工智能、機器學習、模式識別、統計學和數據庫等交叉方法,在數據中特別是大數據及海量數據中發現規律的過程,是從一個數據中提取、融合、處理信息,並將其轉換成可理解的結構數據、可視化的分析圖表、可解釋的規律結論,以進一步響應業務分析的需求。它不是一個簡單的概念或者技術,而是一種解決問題的思路和方法,是一個知識綜合應用的技術集合。
數據挖掘

數據挖掘涉及知識面廣,技術點多。在面對複雜多樣的業務分析場景時,如何做出有效的數據挖掘分析方案其實是有一套可遵循的方法體系。針對不同的分析數據和業務場景,數據挖掘的方法可以分爲監督學習、無監督學習、半監督學習、增強學習,每種方法都有其適應的分析場景和數據基礎。
監督式學習
監督式學習是基於標籤化的訓練資料學習或建立一個映射模式, 依此模式推測新的實例;它包括:分類、迴歸、估計等。 注意,定義強調‘標籤化的訓練資料’,這就要求分析的樣本數據是有標註的。
半監督學習是指訓練集同時包含有標記樣本數據和未標記樣本數據,並且不需要人工干預,讓學習器不依賴外界交互、自動利用少量的標註樣本和大量的未標註樣本進行訓練和分類。半監督學習對於減少標註代價,提高學習器性能具有非常重大的實際意義。
無監督學習是指沒有給定事先標記過的訓練示例,自動對輸入的數據進行分類或分羣,包括:聚類、關聯規則分析、部分統計分析等。
增強學習(Reinforcement learning)即強化學習,強調基於環境而行動,以取得最大化的預期利益。它採用的是邊獲得樣例邊學習的方式,在獲得樣例之後更新自己的模型,利用當前模型來指導下一步行動,例如博弈論、控制論、仿真優化、羣體智能。
明確了業務分析場景和數據挖掘的方法,接下來就要思考如何完成數據挖掘分析的目標。一般情況下,基於一定的業務場景和挖掘分析目標,數據挖掘的基本流程可以總結爲以下幾個階段:數據探索、數據預處理、數據建模、模型評估和模型部署應用。
數據挖掘流程

數據探索
數據探索是對建模分析數據進行先導性的洞察分析,利用繪製圖表、計算某些特徵量等手段,對樣本數據集的結構特徵和分佈特性進行分析的過程。 該步驟有助於選擇合適的數據預處理和數據分析技術,它是數據建模的依據,比如:數據探索發現數據稀疏,建模時則選擇對稀疏數據支持相對較好的分析方案;如果數據包含文本數據,建模時則需要考慮基於自然語言處理相關技術等。
數據挖掘數據探索
數據預處理
數據預處理是將不規整的業務數據整理爲相對規整的建模數據(比如,數據缺失處理、異常值檢測處理等操作)。數據的質量決定了模型輸出的結果,即數據決定了模型的上限,所以我們需要花大量的時間來對數據進行處理。在數據預處理階段,如果數據存在缺失值情況而導致建模過程混亂甚至無法進行建模,則需要做缺失值處理,缺失值處理分爲刪除存在缺失值的記錄、對可能值進行插補及不處理3種情況;如果建模數據存在數據不均衡情況,則需要考慮數據平衡處理,解決這一問題的基本思路是讓正負樣本在訓練過程中擁有相同的話語權,比如利用採樣和加權等方法;如果分析數據量較大,而建模分析又不強制全部數據參與建模分析(比如統計分析隨機選取部分數據作爲分析對象),或者建模過程需要全量樣本的部分數據,則需要做數據抽樣,包括隨機抽樣、等距抽樣、分層抽樣等方法;如果建模分析數據存在量綱、數量級上的差別,則需要做數據規約處理消除量綱數量級的影響;如果異常數據會對分析結果影響巨大,則需要做異常值檢測處理排除影響。

特徵工程
特徵工程
理論上,數據和特徵決定了模型的上限,而算法只是逼近這個上限而已,這裏的數據指的是經過特徵工程得到的數據,因此特徵工程是我們進行機器學習必須重視的過程。特徵工程的目的是最大限度地從原始數據中提取特徵以供算法和模型使用。一般認爲特徵工程包括特徵選擇、特徵規約、特徵生成三個部分。其中,特徵選擇在降低模型複雜度、提高模型訓練效率、增強模型的準確度方面影響較大;在建模字段繁多的情形下,通過特徵規約降低建模數據維度,降低特徵共線特性對模型準確度的不利影響,從而提升模型的訓練效率;特徵生成是在特徵維度信息相對單一情況下爲了提升模型準確性能而採取的維度信息擴充的方法體系。
數據建模
數據建模
數據挖掘的核心階段是基於既定的數據和分析目標選擇適宜的算法模型進行建模訓練和迭代優化。數據建模涉及的技術包括:機器學習、統計分析、深度學習,相關技術之間沒有一個明顯的區分界限,且功能互補。如果建模業務數據涉及到文本非結構化數據,則需要藉助自然語言處理實現業務分析場景;面對一些調查數據分析統計意義給出決策結論時,則需要基於統計分析的相關技術;在機器學習領域,分類技術主要解決影響因素X和決策變量Y的問題,基於此目的我們所要做的就是尋找X和Y之間的函數關係。其中分類場景的實際應用Y是名詞型屬性,如用於故障預測、精準營銷等;迴歸場景和分類場景類似,只是迴歸場景中的決策變量Y是連續性的數值型數據,如用於設備壽命預測、收視率預測等;聚類分析是在沒有決策變量Y的情況下,基於一定的規則(比如基於距離相近、基於曲線相似等)將樣本數據進行分羣進而找出共性羣體,如客戶細分,市場細分等;時間序列數據是基於歷史數據挖掘內在的趨勢規律,進而實現對未來數據的預測分析,如銷量預測、產量預測等;關聯分析適用於挖掘多個事務項之間共現關聯關係,從而描述事物項中某些屬性同時出現的規律和模式,如產品關聯推薦、交叉故障等,關聯分析的一個典型例子是購物籃分析;綜合評價適用於在多因素、多層次複雜決策情況下對多個備選方案打分以輔助決策,如店鋪選址、客戶信用評分等;
深度學習領域涉及多種模型框架和操作使用技巧,其本身可以作爲機器學習的特例, 同樣適用於機器學習多個應用場景。深度學習作爲一種實現機器學習的技術,往往在數據量大、業務數據指標難以人工提取的情形下發揮着舉足輕重的作用, 它在圖像處理、語音識別、自然語言處理等領域具有其它機器學習算法無法企及的準確性能。
數據建模
模型評估
模型評估是評估所構建的模型是否符合既定的業務目標,它有助於發現表達數據的最佳模型和所選模式將來工作的性能如何。模型評估秉承的準則是在滿足業務分析目標的前提下優先選擇簡單化的模型。每個分析場景可以基於多種算法構建多個模型,也可以依據模型優化的方法體系做模型訓練優化,而如何在訓練得到的多個模型中選擇最優模型,可以選擇性能度量作爲指標體系,進而基於一定的評估方法進行擇優選擇。

模型評估

模型部署及應用
模型部署及應用是將數據挖掘結果作用於業務過程,即將訓練得到的最優模型部署到實際應用中;模型部署後,可使用調度腳本控制數據挖掘模型實現流程化運行。在模型日常運行過程中,可根據實際需求檢查模型運行結果是否滿足前端業務的實際應用,跟蹤模型運行情況,定期進行模型結果分析,並適時進行模型優化。

以上內容對數據挖掘涉及的知識體系做了簡要介紹,上述的知識體系涵蓋了實際挖掘分析所用方法體系的絕大部分內容,希望讀者能夠通過本文對數據挖掘有個全局認識。在面對複雜的業務分析場景時,能夠有一個清晰嚴謹的挖掘分析思路,進步明確可以對樣本數據做哪些分析以及如何科學地做挖掘分析。另一方面來說,在實際挖掘分析過程中,一個特定的挖掘分析場景只是涉及上述知識體系的一部分,每個分析場景涉及的知識點也不盡相同,全面掌握和深入理解挖掘知識體系是一個逐漸學習與積累的過程;這就需要我們在每一個挖掘場景下對涉及的知識點進行深入理解和知識擴充,並且對多個實踐過程進行循環往復的知識總結和經驗積累。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章