數據挖掘那些事

當我們在談數據挖掘時，其實在討論什麼

統計學、數據挖掘與機器學習是近年來經常一起出現的3個詞語，尤其是數據挖掘與機器學習。有些人認爲數據挖掘涵蓋了機器學習，有些人認爲機器學習應該包含數據挖掘，各種說法莫衷一是。實際上，由於近年來信息科學的高速發展，這些概念雖然有了一定的定義和解釋，但是邊界都相對模糊。如果從業務場景、算法應用的角度理解、學習他們，可以歸類爲數據科學——一門從數據中提煉知識及洞察趨勢的科學。

文/黃成甲

將這種科學應用到生活中就是各種指數。例如：裙邊理論：女性的裙子長度可以反映經濟的興衰，裙子越短，經濟發展情況越好，裙子越長，經濟發展情況越艱險。另外，還有德國啤酒指數：每當氣溫上升1度，啤酒銷量就平均增加230萬瓶，這就是“德國啤酒指數”；空調指數：在日本夏季，溫度每上升1度，空調的銷量就平均增加30萬臺。

這些行業指數都是統計學在某一方面的應用。當然，現在的統計學已經大大超出了行業指數研究的範疇。例如IBM在醫療領域利用Watson技術解決了包括糖尿病、白內障、腫瘤等難題。但是，無論是在過去、現在還是未來，人們總是希望能夠藉助觀察事物（獲取數據），通過合適的手段（建立統計挖掘模型）來量化這些關係。例如，藉助一個人的身高來預測他的體重，

身高預測模型

上圖是一個統計挖掘模型的基本形式。簡單來說，統計挖掘模型是指利用一個或多個輸入變量（一般也被稱爲自變量）通過擬合適當的關係式來預測目標變量（也被稱爲因變量）的方法。其中，f(x)是我們探求的關係式，但是其一般是固定並且未知的。儘管f(x)未知，但是我們的目標是利用一系列的統計/挖掘方法來儘可能求出接近f(x)的模型，這種模型可以是一個簡單的線性迴歸模型y=ax+b，也可能是一個曲線模型y=a+bx²,當然也有可能是一個神經網絡模型或者一個決策樹模型。

這些模型從預測任務的角度看，估計出f(x)的形式並不意味着任務結束，在實際的商業實踐中，可以將數據挖掘任務簡單分爲預測任務與控制任務。

（1）預測任務：我們關心的是目標變量Y的預測。預測模型f(x)的形式有可能是一個黑箱模型（即對於模型本身，我們不能很好解釋或者並不清楚其內部結構，而是更加關心模型的輸入和輸出），只要能夠提高預測精度，我們就認爲達到目的了。一般，神經網絡模型屬於典型的黑箱模型。例如：Google X實驗室開發出具有自主學習能力的神經網絡模型，它能夠從1000萬張圖片中找出那些有小貓的照片，其中，這1000萬張圖片就是輸入，對於這些圖片的識別就是輸出。

（2）控制任務：在控制任務中，我們希望能夠儘可能地描述清楚X與Y的關係。例如在金融行業，要通過客戶的個人信用信息來評價個人的信用風險，這就要求模型不但能夠回答這個客戶的信用風險是高還是低，還要能回答哪些因素直接影響客戶的信用風險，每個因素的影響程度有多大。

進一步的，從預測場景的角度看，又可以把統計挖掘劃分爲兩種類型：有監督的學習與無監督學習。

學習類型

有監督的學習即對每一組自變量X都有一個因變量Y一一對應，通過擬合預測模型，可以更好的理解輸入變量與目標變量之間的關係，例如，分析客戶的個人信用信息來評價其信用風險，分析企業營銷費用投入與銷量的關係等。對於有監督學習，如果目標變量屬於定量變量（即連續型變量，例如GDP、企業年銷售額），那麼可以把它定義爲迴歸問題；如果目標變量屬於定性變量（即分類型變量，例如違約客戶與不違約客戶），那麼將其定義爲分類問題。

而對於無監督學習，則只有自變量X，而沒有明確的Y。例如，對於零售企業中每個會員的行爲信息，通過無監督學習的方法（聚類）可以把會員劃分爲不同的客戶細分羣體，如粉絲客戶羣、性價比客戶羣等。

數據挖掘那些事

演講能力進階

數據挖掘那些事

夜話人工智能

數據分析之對應分析

數據分析之因子分析

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結