跟我一起數據挖掘(19)——什麼是數據挖掘(2)

什麼是數據倉庫?

數據倉庫是一個面向主題的( Subject Oriented) 、集成的( Integrate) 、相對穩定的(NonVolatile) 、反映歷史變化( Time Variant)的數據集合,用於支持管理決策。對於數據倉庫的概念我們可以從兩個層次予以理:

①數據倉庫用於支持決策,面向分析型數據處理,它不同於企業現有的操作型數據庫;

②數據倉庫是對多個異構數據源的有效集成,集成後按照主題進行了重組,幷包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。

企業數據倉庫的建設是以現有企業業務系統和大量業務數據的積累爲基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們作出改善其業務經營的決策,信息才能發揮作用,信息纔有意義。而把信息加以整理、歸納和重組,並及時提供給相應的管理決策人員是數據倉庫的根本任務。

數據立方體與OLAP

數據立斱體以多維對數據迚行建模和觀察。

下圖就是客戶、產品和銷售的數據立方體:

image

OLAP的多維分析操作包括:鑽取(Drill-down)上卷(Roll-up)切片(Slice)切塊(Dice)以及旋轉(Pivot)等。

鑽取(Drill-down):在維的不同層次間的變化,從上層降到下一層,或者說是將彙總數據拆分到更細節的數據,比如通過對2010年第二季度的總銷售數據進行鑽取來查看2010年第二季度4、5、6每個月的消費數據。

上卷(Roll-up):鑽取的逆操作,即從細粒度數據向高層的聚合,如將江蘇省、上海市和浙江省的銷售數據進行彙總來查看江浙滬地區的銷售數據。

切片(Slice):選擇維中特定的值進行分析,比如只選擇電子產品的銷售數據,或者2010年第二季度的數據。

切塊(Dice):選擇維中特定區間的數據或者某批特定值進行分析,比如選擇2010年第一季度到2010年第二季度的銷售數據,或者是電子產品和日用品的銷售數據。

旋轉(Pivot):即維的位置的互換,就像是二維表的行列轉換,如圖中通過旋轉實現產品維和地域維的互換。

數據挖掘解決的四大類問題

1、分類

分類技術在很多領域都有應用,例如可以通過客戶分類構造一個分類模型來對銀行貸款進行風險評估;當前的市場營銷中很重要的一個特點是強調客戶細分。客戶類別分析的功能也在於此,採用數據挖掘中的分類技術,可以將客戶分成不同的類別,比如呼叫中心設計時可以分爲:呼叫頻繁的客戶、偶然大量呼叫的客戶、穩定呼叫的客戶、其他,幫助呼叫中心尋找出這些不同種類客戶之間的特徵,這樣的分類模型可以讓用戶瞭解不同行爲類別客戶的分佈特徵;其他分類應用如文獻檢索和搜索引擎中的自動文本分類技術;安全領域有基於分類技術的***檢測等等。機器學習、專家系統、統計學和神經網絡等領域的研究人員已經提出了許多具體的分類預測方法。下面對分類流程作個簡要描述:

訓練:訓練集——>特徵選取——>訓練——>分類器

分類:新樣本——>特徵選取——>分類——>判決

下面看一個基於決策樹的分類器的示例:

image

2、聚類

聚類:將數據對象劃分爲若干類,同一類的對象具有較高的相似度,不同類的對象相似度較低。從這個簡單的描述中,可以看出聚類的關鍵是如何度量對象間的相似性。較爲常見的用於度量對象的相似度的方法有距離密度等。

聚類分析的原理可以根據下圖來看:

對牌進行分組:

image

按花色分:

image

按符號分:

image

按顏色分:

image

按大小程度相近分:

image

下面就是一個聚類的示例:

image

3、預測

數據挖掘預測與周易預測有相似之處。周易建立在陰陽二元論基礎上,對天地萬物進行性狀歸類(天干地支五行論),精確到可以對事物的未來發展做出較爲準確的預測。許多學者認爲周易理論依據是萬事萬物的相似性、關聯性和全息性原理。這三個原理已被現代科學所證實。全息性是指事物的某一局部包含了整體的信息。例如,法醫工作者對一根毛髮進行化驗,得出受害者或嫌疑人的許多身體特徵。

周易預測通過對歷史事件的學習來積累經驗,得出事物間的相似性和關聯性,從而對事物的未來狀況做出預測。數據挖掘預測則是通過對樣本數據(歷史數據)的輸入值和輸出值關聯性的學習,得到預測模型,再利用該模型對未來的輸入值進行輸出值預測。一般地,可以通過機器學習方法建立預測模型。DM(Data Mining)的技術基礎是人工智能(機器學習),但是DM僅僅利用了人工智能(AI)中一些已經成熟的算法和技術,因而複雜度和難度都比AI小很多。

機器學習:假定事物的輸入、輸出之間存在一種函數關係y=f(x, β),其中β是待定參數,x是輸入變量,則y=f(x, β)稱爲學習機器。通過數據建模,由樣本數據(一般是歷史數據,包含輸入值和輸出值)學習得到參數β的取值,就確定了具體表達式y=f(x, β),這樣就可以對新的x預測y了。這個過程稱作機器學習。

數據建模不同於數學建模,它是基於數據建立數學模型,它是相對於基於物理、化學和其他專業基本原理建立數學模型(即機理建模)而言的。對於預測來說,如果所研究的對象有明晰的機理,可以依其進行數學建模,這當然是最好的選擇。但是實際問題中,一般無法進行機理建模。但是歷史數據往往是容易獲得的,這時就可使用數據建模。

典型的機器學習方法包括:決策樹方法人工神經網絡支持向量機正則化方法。其他常見的預測方法還有近鄰法樸素貝葉斯(屬於統計學習方法)等。

預測的模型可以參考下圖:

image

4、關聯

分析各個物品或者商品之間同時出現的機率。

在各種數據挖掘算法中,關聯規則挖掘算是比較重要的一種,尤其是受購物籃分析的影響,關聯規則被應用到很多實際業務中。

首先,和聚類算法一樣,關聯規則挖掘屬於無監督學習方法,它描述的是在一個事物中物品間同時出現的規律的知識模式,現實生活中,比如超市購物時,顧客購買記錄常常隱含着很多關聯規則,比如購買圓珠筆的顧客中有65%也購買了筆記本,利用這些規則,商場人員可以很好的規劃商品擺放問題。在電商網站中,利用關聯規則可以發現哪些用戶更喜歡哪類的商品,當發現有類似的客戶的時候,可以將其它客戶購買的商品推薦給相類似的客戶,以提高網站的收入。

下圖就是一個關聯的示例:

image

CRISP-DM

CRISP-DM 模型爲一個KDD工程提供了一個完整的過程描述.該模型將一個KDD工程分爲6個不同的,但順序並非完全不變的階段。

1: business understanding: 即商業理解. 在第一個階段我們必須從商業的角度上面瞭解項目的要求和最終目的是什麼. 並將這些目的與數據挖掘的定義以及結果結合起來。

2: data understanding: 數據的理解以及收集,對可用的數據進行評估。

3: data preperation: 數據的準備,對可用的原始數據進行一系列的組織以及清洗,使之達到建模需求。

4: modeling: 即應用數據挖掘工具建立模型。

5: evaluation: 對建立的模型進行評估,重點具體考慮得出的結果是否符合第一步的商業目的。

6: deployment: 部署(方案實施),即將其發現的結果以及過程組織成爲可讀文本形式.(數據挖掘報告)。

image

商業理解(Business understanding):商業理解階段應算是數據挖掘中最重要的一個部分,在這個階段裏我們需要明確商業目標、評估商業環境、確定挖掘目標以及產生一個項目計劃。    
     數據理解(Data understanding):數據是我們挖掘過程的“原材料”,在數據理解過程中我們要知道都有些什麼數據,這些數據的特徵是什麼,可以通過對數據的描述性分析得到數據的特點。    
     數據準備(Date preparation):在數據準備階段我們需要對數據作出選擇、清洗、重建、合併等工作。選出要進行分析的數據,並對不符合模型輸入要求的數據進行規範化操作。    
     建模(Modeling):建模過程也是數據挖掘中一個比較重要的過程。我們需要根據分析目的選出適合的模型工具,通過樣本建立模型並對模型進行評估。    
     模型評估(Evaluation):並不是每一次建模都能與我們的目的吻合,評價階段旨在對建模結果進行評估,對效果較差的結果我們需要分析原因,有時還需要返回前面的步驟對挖掘過程重新定義。    
     結果部署(Deployment):這個階段是用建立的模型去解決實際中遇到的問題,它還包括了監督、維持、產生最終報表、重新評估模型等過程。

總結

以上分別介紹了數據倉庫和數據立方體,並且介紹了數據挖掘要解決的四大類問題,任何跟數據挖掘相關的問題都可以先歸類到這四大類問題中,然後再根據相應的算法進行解決。

最後介紹了CRISP-DM 模型,是IBM提出的標準模型,可以對數據挖掘的過程進行理論的指導。在接下來會針對用戶產生的數據來探討如何進行用戶畫像。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章