數據挖掘那些事

當我們在談數據挖掘時,其實在討論什麼

統計學、數據挖掘與機器學習是近年來經常一起出現的3個詞語,尤其是數據挖掘與機器學習。有些人認爲數據挖掘涵蓋了機器學習,有些人認爲機器學習應該包含數據挖掘,各種說法莫衷一是。實際上,由於近年來信息科學的高速發展,這些概念雖然有了一定的定義和解釋,但是邊界都相對模糊。如果從業務場景、算法應用的角度理解、學習他們,可以歸類爲數據科學——一門從數據中提煉知識及洞察趨勢的科學。

文/黃成甲

將這種科學應用到生活中就是各種指數。例如:裙邊理論:女性的裙子長度可以反映經濟的興衰,裙子越短,經濟發展情況越好,裙子越長,經濟發展情況越艱險。另外,還有德國啤酒指數:每當氣溫上升1度,啤酒銷量就平均增加230萬瓶,這就是“德國啤酒指數”;空調指數:在日本夏季,溫度每上升1度,空調的銷量就平均增加30萬臺。

這些行業指數都是統計學在某一方面的應用。當然,現在的統計學已經大大超出了行業指數研究的範疇。例如IBM在醫療領域利用Watson技術解決了包括糖尿病、白內障、腫瘤等難題。但是,無論是在過去、現在還是未來,人們總是希望能夠藉助觀察事物(獲取數據),通過合適的手段(建立統計挖掘模型)來量化這些關係。例如,藉助一個人的身高來預測他的體重,

身高預測模型

上圖是一個統計挖掘模型的基本形式。簡單來說,統計挖掘模型是指利用一個或多個輸入變量(一般也被稱爲自變量)通過擬合適當的關係式來預測目標變量(也被稱爲因變量)的方法。其中,f(x)是我們探求的關係式,但是其一般是固定並且未知的。儘管f(x)未知,但是我們的目標是利用一系列的統計/挖掘方法來儘可能求出接近f(x)的模型,這種模型可以是一個簡單的線性迴歸模型y=ax+b,也可能是一個曲線模型y=a+bx²,當然也有可能是一個神經網絡模型或者一個決策樹模型。

這些模型從預測任務的角度看,估計出f(x)的形式並不意味着任務結束,在實際的商業實踐中,可以將數據挖掘任務簡單分爲預測任務與控制任務。

(1)預測任務:我們關心的是目標變量Y的預測。預測模型f(x)的形式有可能是一個黑箱模型(即對於模型本身,我們不能很好解釋或者並不清楚其內部結構,而是更加關心模型的輸入和輸出),只要能夠提高預測精度,我們就認爲達到目的了。一般,神經網絡模型屬於典型的黑箱模型。例如:Google X實驗室開發出具有自主學習能力的神經網絡模型,它能夠從1000萬張圖片中找出那些有小貓的照片,其中,這1000萬張圖片就是輸入,對於這些圖片的識別就是輸出。

(2)控制任務:在控制任務中,我們希望能夠儘可能地描述清楚X與Y的關係。例如在金融行業,要通過客戶的個人信用信息來評價個人的信用風險,這就要求模型不但能夠回答這個客戶的信用風險是高還是低,還要能回答哪些因素直接影響客戶的信用風險,每個因素的影響程度有多大。

進一步的,從預測場景的角度看,又可以把統計挖掘劃分爲兩種類型:有監督的學習與無監督學習。

學習類型

有監督的學習即對每一組自變量X都有一個因變量Y一一對應,通過擬合預測模型,可以更好的理解輸入變量與目標變量之間的關係,例如,分析客戶的個人信用信息來評價其信用風險,分析企業營銷費用投入與銷量的關係等。對於有監督學習,如果目標變量屬於定量變量(即連續型變量,例如GDP、企業年銷售額),那麼可以把它定義爲迴歸問題;如果目標變量屬於定性變量(即分類型變量,例如違約客戶與不違約客戶),那麼將其定義爲分類問題。

而對於無監督學習,則只有自變量X,而沒有明確的Y。例如,對於零售企業中每個會員的行爲信息,通過無監督學習的方法(聚類)可以把會員劃分爲不同的客戶細分羣體,如粉絲客戶羣、性價比客戶羣等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章