大數據時代入門——數據挖掘方法和技術 理論篇

歡迎到我的個人域名博客:http://zhoulingyu.com


大數據時代入門<二>——數據挖掘方法和技術 理論篇

目錄

概述

數據挖掘方法依據的基本原理主要有:

  1. 信息論,主要是計算數據庫中屬性的信息量,如ID3、IBLE等方法

  2. 集合論,利用集合之間的覆蓋關係(如粗糙集方法、覆蓋正例排斥反例的AQ11方法),或計算數據項在整個集合中所佔的比例(如關聯規則挖掘方法);

  3. 仿生物技術,把生物體的運轉過程轉換成數學模型,再用數學模型去解決現實世界的非生物問題,如神經網絡、遺傳算法等

  4. 人工智能技術,主要是利用啓發式搜索方法,如公式發現的BACOM、FDD等方法

  5. 可視化技術,主要是利用圖形顯示技術


歸納學習的信息論方法

  歸納學習方法是目前重點研究的方向,研究成果角落。從採用的技術上看,分爲兩大類:信息論方法(這也是常說的決策樹方法)和集合論方法。每類方法又包含多個具體方法。

信息論方法是利用信息論的原理建立決策樹。由於該方法最後獲得的知識表示形式是決策樹,因此一般文獻中稱它爲決策樹方法。該類方法的實用效果好,影響較大。

信心輪方法中較有特色的方法有以下幾種。

1. ID3等方法(決策樹方法)

Quiulan研製的ID3方法是利用信息論中互相信息(Quiulan稱爲信息增益)尋找數據庫中具有最大信息量的字段,建立決策樹的一個結點,再根據字段的不同取值建立樹的分支,再由每個分支的數據子集重複建樹的下層結點和分支的過程,這樣就建立了決策樹。這種方法對數據庫越大這種方法效果越好。ID3方法在國際上影響很大。ID3方法以後又陸續開發了ID3、ID5、C4.5等方法。

2. IBLE方法(決策規則樹方法)

IBLE方法,是利用信息論中信道容量,尋找數據庫中信息量從大到小的多個字段的取值建立決策規則樹的一個結點,根據該結點中指定字段取值的權利之和與兩個閥值比較,建立左中右三個分支,在各分支子集中重複建樹結點和分支的過程,這就建立了決策規則樹。IBLE方法比ID3方法在識辨率上提高了10個百分點。以後又研製了IBLE-R方法。

歸納學習的集合論方法

  集合論方法是開展較早的方法。近年來,粗糙集理論的發展使集合論方法得到了迅速的發展。這類方法中包括覆蓋正例排斥反例的方法(典型的方法是AQ系列方法)、概念樹方法和粗糙集(Rough Set)方法。關聯規則挖掘方法也屬於集合論方法。

1. 粗糙集(Rough Set)方法

在數據庫中將元素看成對象,列元素是屬性(分爲條件屬性和決策屬性)。等價關係R定義爲不同對象在某個(或幾個)屬性上取值相同,這些滿足等價關係的對象組成的集合成爲該等價關係R的等價類。條件屬性上的等價類E與決策屬性上的等價類Y之間有三種情況:
1. 下近似:Y包含E;
2. 上近似:Y和E的交非空;
3. 無關:Y和E的交爲空。
對下近似簡歷確定性規則,對上近似簡歷不確定性規則(含可信度),無關情況下不存在規則。

2. 關聯規則挖掘

  關聯規則挖掘是在交易事物數據庫中,挖掘出不同項(商品)集的關聯關係,即發現哪些商品頻繁地被顧客同時購買。

  關聯規則挖掘是在事務數據庫D中尋找那些不同項集(如含A和B量個商品)同時出現的概率(即P(AB))大於最小支持度(min_sup),且包含一個項集合(如A)的所有事務中,又包含另一個項集(如B)的條件概率(即P(A|B))大於最小可信度(min_conf)時,則存在關聯規則(即A→B)。

3. 覆蓋正例排斥反例方法

  它是利用覆蓋所有正例,排斥所有反例的思想來尋找規則。比較典型的有Michalski的AQ11方法、洪家榮改進的AQ15方法以及洪家榮的AE5方法。

  AQ系列的核心算法是在正例集中任選一個種子,它到反例集中諸葛比較,對字段取值構成的子相容則捨去,相斥則保留。按此思想循環所有正例種子,將得到正例集的規則(選擇子的合取式)。

  AE系列方法是在擴張矩陣中尋找覆蓋正例排斥反例的字段值的公共路(規則)。

4. 概念樹方法

  數據庫中記錄的屬性字段按歸類方式進行合併,建立起來的層次結構稱爲概念樹。例如對“城市”概念樹的最下層是具體市名或縣名(如長沙、南京等),它的直接上層是省名(湖南、江蘇等),省名的直接上層是國家行政區(華南、華東等),再上層是國名(中國、日本等)。

  利用概念樹提升的方法可以大大濃縮數據庫中的記錄(元組)。對多個屬性字段的概念樹提升,將得到高度概括的知識基表,然後再將它轉換成規則

仿生物技術的神經網絡方法

  仿生物技術典型的是神經網絡方法和遺傳算法。這兩類方法已經形成了獨立的研究體系。它們在數據挖掘中也發揮了巨大的作用,可以將它們歸併爲仿生物技術類。

  神經網絡方法模擬了人腦神經元結構,是以MP數學模型和Hebb學習規則爲基礎的,建立了三大類多種神經網絡模型。

1. 前饋式網絡

  它以感知機、BP反向傳播模型、函數型網絡爲代表。此類網絡可用於預測、模式識別等方面。

2. 反饋式網絡

  它以Hopfield的離散模型和連續模型爲代表,分別用於聯想記憶和優化計算。

3. 自組織網絡

  它以ART模型、Kohonen模型爲代表,用於聚類。

  神經網絡的知識體現在網絡連接的權值上,是一個分佈式矩陣結構。神經網絡的學習體現在神經網絡權值的逐步計算上(包括反覆迭代或累加計算)。

仿生物技術的遺傳算法

  這是模擬生物進化過程的算法。它由三個基本算子組成

1. 繁殖(選擇)

  從一箇舊種羣(父代)選擇出生命力強的個體產生新種羣(後代)的過程。

2. 交叉(重組)

  選擇兩個不同個體(染色體)的部分(基因)進行交換,形成兩個新個體。

3. 變異(突變)

  對某些個體的某些基因進行變異(1變0,0變1),形成新個體。

  這種遺傳算法起到產生優良後代的作用。這些後代需要滿足適應值,經過若干代的遺傳,將得到滿足要求的後代(問題的解)。遺傳算法已在優化計算的分類機器學習方法發揮了顯著的效果。

數值數據的公式發現

  在工程和科學數據庫(由實驗數據組成)中,利用人工智能啓發式搜索方法(反覆試驗),對若干數據項(變量)進行一定的數學運算,可求得相應的數學公式。

1. 物理定律發現系統BACON

  BACON發現系統完成了物理學中大量定律的重新發現。它的基本思想是對數據項反覆進行初等數學運算(加減乘除等)形式的組合數據項,若它的值爲常數(啓發式),就得到了組合數據項等於常數的公式。該系統有5個版本,分別爲BACON.1到BANCON.5。

2. 經驗公式發現系統FDD

  基本思想是對兩個數據項交替取初等函數後與另一數據項的線性組合,反覆進行不同的初等函數實驗,當線性組合爲直線時(啓發式),就找到了數據項(變量)的初等函數的線性組合公式。該系統所發現的公式比BACON系統發現的公式更寬些。該系統有三個版本分別爲FDD.1到FDD.3。

可視化技術

  可視化技術是一種圖形顯示技術。例如,把數據庫中多維數據變成多種圖形,這對於揭示數據中內在本質以及分佈規律起到很強的作用。對於數據挖掘過程可視化,並進行人機交互可提高數據挖掘的效果。

  數據可視化是創建二維或三維業務數據集的圖標,使得用戶用於理解業務數據,從而提升知識和洞察力。例如,多維數據和多維結構類型(MTS)圖與多維表格是對多維數據可視化的顯示。利用直方圖(二維)、柱形圖(三維)、餅圖、折線圖、雷達圖、散點圖等能更形象地表示數據之間對比與變化的關係。

  可視化數據挖掘是創建可視化的數據挖掘的模型,利用這些模型發現業務數據集中存在的模式,從而輔助決策支持及預測新的商機。

  可視化技術的基本工作如下。

  1. 提取幾何圖元
  2. 繪圖
  3. 顯示和演放

參考:

《數據倉庫》[美] 蔭蒙(Inmon,W.H) 著

《數據倉庫與數據挖掘教程》 清華大學出版社 陳文偉

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章