數據挖掘技術

                                                                              數據挖掘技術

____數據挖掘涉及的學科領域和方法很多,有多種分類法。根據開採任務分,可分爲分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關係或依賴模型發現、異常和趨勢發現等等;根據開採對象分,有關係數據庫、面向對象數據庫、空間數據庫、時態數據庫、文本數據源、多媒體數據庫、異質數據庫、遺產數據庫以及環球網Web;根據開採方法分,可粗分爲:機器學習方法、統計方法、神經網絡方法和數據庫方法。機器學習中,可細分爲:歸納學習方法(決策樹、規則歸納等)、基於範例學習、遺傳算法等。統計方法中,可細分爲:迴歸分析(多元迴歸、自迴歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。神經網絡方法中,可細分爲:前向神經網絡(BP算法等)、自組織神經網絡(自組織特徵映射、競爭學習等)等。數據庫方法主要是多維數據分析或OLAP 方法,另外還有面向屬性的歸納方法。

____本文將主要從開採任務和開採方法的角度,着重討論數據總結、分類發現、聚類和關聯規則發現四種非常重要的發現任務。

____一、數據總結

____數據總結目的是對數據進行濃縮,給出它的緊湊描述。傳統的也是最簡單的數據總結方法是計算出數據庫的各個字段上的求和值、平均值、方差值等統計值,或者用直方圖、餅狀圖等圖形方式表示。數據挖掘主要關心從數據泛化的角度來討論數據總結。數據泛化是一種把數據庫中的有關數據從低層次抽象到高層次上的過程。由於數據庫上的數據或對象所包含的信息總是最原始、基本的信息(這是爲了不遺漏任何可能有用的數據信息 )。人們有時希望能從較高層次的視圖上處理或瀏覽數據,因此需要對數據進行不同層次上的泛化以適應各種查詢要求。數據泛化目前主要有兩種技術:多維數據分析方法和麪向屬性的歸納方法。

____多維數據分析方法是一種數據倉庫技術,也稱作聯機分析處理(OLAP)。數據倉庫是面向決策支持的、集成的、穩定的、不同時間的歷史數據集合。決策的前提是數據分析。在數據分析中經常要用到諸如求和、總計、平均、最大、最小等彙集操作,這類操作的計算量特別大。因此一種很自然的想法是,把彙集操作結果預先計算並存儲起來,以便於決策支持系統使用。存儲彙集操作結果的地方稱作多維數據庫。多維數據分析技術已經在決策支持系統中獲得了成功的應用,如著名的SAS數據分析軟件包、Business Object公司的決策支持系統Business Object,以及IBM公司的決策分析工具都使用了多維數據分析技術。

____採用多維數據分析方法進行數據總結,它針對的是數據倉庫,數據倉庫存儲的是脫機的歷史數據。爲了處理聯機數據,研究人員提出了一種面向屬性的歸納方法。它的思路是 ,直接對用戶感興趣的數據視圖(用一般的SQL查詢語言即可獲得)進行泛化,而不是像多維數據分析方法那樣預先就存儲好了泛化數據。方法的提出者對這種數據泛化技術稱之爲面向屬性的歸納方法。原始關係經過泛化操作後得到的是一個泛化關係,它從較高的層次上總結了在低層次上的原始關係。有了泛化關係後,就可以對它進行各種深入的操作而生成滿足用戶需要的知識,如在泛化關係基礎上生成特性規則、判別規則、分類規則,以及關聯規則等。

____二、分類發現

____分類在數據挖掘中是一項非常重要的任務,目前在商業上應用最多。分類的目的是學會一個分類函數或分類模型(也常常稱作分類器),該模型能把數據庫中的數據項映射到給定類別中的某一個。分類和迴歸都可用於預測。預測的目的是從利用歷史數據紀錄中自動推導出對給定數據的推廣描述,從而能對未來數據進行預測。和迴歸方法不同的是,分類的輸出是離散的類別值,而回歸的輸出則是連續數值。這裏我們將不討論迴歸方法。

____要構造分類器,需要有一個訓練樣本數據集作爲輸入。訓練集由一組數據庫記錄或元組構成,每個元組是一個由有關字段(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可爲:( v1, v2, ..., vn; c );其中vi表示字段值,c表示類別。

____分類器的構造方法有統計方法、機器學習方法、神經網絡方法等等。統計方法包括貝葉斯法和非參數法(近鄰學習或基於事例的學習),對應的知識表示則爲判別函數和原型事例。機器學習方法包括決策樹法和規則歸納法,前者對應的表示爲決策樹或判別樹,後者則一般爲產生式規則。神經網絡方法主要是BP算法,它的模型表示是前向反饋神經網絡模型(由代表神經元的節點和代表聯接權值的邊組成的一種體系結構),BP算法本質上是一種非線性判別函數。另外,最近又興起了一種新的方法:粗糙集(rough set),其知識表示是產生式規則。

____不同的分類器有不同的特點。有三種分類器評價或比較尺度:1 預測準確度;2 計算複雜度;3 模型描述的簡潔度。預測準確度是用得最多的一種比較尺度,特別是對於預測型分類任務,目前公認的方法是10番分層交叉驗證法。計算複雜度依賴於具體的實現細節和硬件環境,在數據挖掘中,由於操作對象是巨量的數據庫,因此空間和時間的複雜度問題將是非常重要的一個環節。對於描述型的分類任務,模型描述越簡潔越受歡迎;例如,採用規則表示的分類器構造法就更有用,而神經網絡方法產生的結果就難以理解。

____另外要注意的是,分類的效果一般和數據的特點有關,有的數據噪聲大,有的有缺值, 有的分佈稀疏,有的字段或屬性間相關性強,有的屬性是離散的而有的是連續值或混合式的。目前普遍認爲不存在某種方法能適合於各種特點的數據。

____三、聚類

____聚類是把一組個體按照相似性歸成若干類別,即"物以類聚"。它的目的是使得屬於同一類別的個體之間的距離儘可能的小,而不同類別上的個體間的距離儘可能的大。聚類方法包括統計方法、機器學習方法、神經網絡方法和麪向數據庫的方法。

____在統計方法中,聚類稱聚類分析,它是多元數據分析的三大方法之一(其它兩種是迴歸分析和判別分析)。它主要研究基於幾何距離的聚類,如歐式距離、明考斯基距離等。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。這種聚類方法是一種基於全局比較的聚類,它需要考察所有的個體才能決定類的劃分;因此它要求所有的數據必須預先給定,而不能動態增加新的數據對象。聚類分析方法不具有線性的計算複雜度,難以適用於數據庫非常大的情況。

____在機器學習中聚類稱作無監督或無教師歸納;因爲和分類學習相比,分類學習的例子或數據對象有類別標記,而要聚類的例子則沒有標記,需要由聚類學習算法來自動確定。很多人工智能文獻中,聚類也稱概念聚類;因爲這裏的距離不再是統計方法中的幾何距離 ,而是根據概念的描述來確定的。當聚類對象可以動態增加時,概念聚類則稱是概念形成。

____在神經網絡中,有一類無監督學習方法:自組織神經網絡方法;如Kohonen自組織特徵映射網絡、競爭學習網絡等等。在數據挖掘領域裏,見報道的神經網絡聚類方法主要是自組織特徵映射方法,IBM在其發佈的數據挖掘白皮書中就特別提到了使用此方法進行數據庫聚類分割。

____四、關聯規則發現

____關聯規則是形式如下的一種規則,"在購買麪包和黃油的顧客中,有90%的人同時也買了牛奶"(麪包+黃油 ( 牛奶 )。用於關聯規則發現的主要對象是事務型數據庫,其中針對的應用則是售貨數據,也稱貨籃數據。一個事務一般由如下幾個部分組成:事務處理時間 ,一組顧客購買的物品,有時也有顧客標識號(如信用卡號)。

____由於條形碼技術的發展,零售部門可以利用前端收款機收集存儲大量的售貨數據。因此,如果對這些歷史事務數據進行分析,則可對顧客的購買行爲提供極有價值的信息。例如,可以幫助如何擺放貨架上的商品(如把顧客經常同時買的商品放在一起),幫助如何規劃市場(怎樣相互搭配進貨)。由此可見,從事務數據中發現關聯規則,對於改進零售業等商業活動的決策非常重要。

____設I={i1,i2,...,im}是一組物品集(一個商場的物品可能有上萬種),D是一組事務集 (稱之爲事務數據庫)。D中的每個事務T是一組物品,顯然滿足TI。稱事務T支持物品集 X,如果XT。關聯規則是如下形式的一種蘊含:XY,其中XI,YI,且X∩Y=I。

____(1) 稱物品集X具有大小爲s的支持度,如果D中有s%的事務支持物品集X;

____(2) 稱關聯規則XY在事務數據庫D中具有大小爲s的支持度,如果物品集X∪Y的支持度爲s;

____(3) 稱規則XY在事務數據庫D中具有大小爲c的可信度,如果D中支持物品集X的事務中有c%的事務同時也支持物品集Y。

____如果不考慮關聯規則的支持度和可信度,那麼在事務數據庫中存在無窮多的關聯規則。事實上,人們一般只對滿足一定的支持度和可信度的關聯規則感興趣。在文獻中,一般稱滿足一定要求的(如較大的支持度和可信度)的規則爲強規則。因此,爲了發現出有意義的關聯規則,需要給定兩個閾值:最小支持度和最小可信度。前者即用戶規定的關聯規則必須滿足的最小支持度,它表示了一組物品集在統計意義上的需滿足的最低程度;後者即用戶規定的關聯規則必須滿足的最小可信度,它反應了關聯規則的最低可靠度。

____在實際情況下,一種更有用的關聯規則是泛化關聯規則。因爲物品概念間存在一種層次關係,如夾克衫、滑雪衫屬於外套類,外套、襯衣又屬於衣服類。有了層次關係後,可以幫助發現一些更多的有意義的規則。例如,"買外套買鞋子"(此處,外套和鞋子是較高層次上的物品或概念,因而該規則是一種泛化的關聯規則)。由於商店或超市中有成千上萬種物品,平均來講,每種物品(如滑雪衫)的支持度很低,因此有時難以發現有用規則;但如果考慮到較高層次的物品(如外套),則其支持度就較高,從而可能發現有用的規則。

____另外,關聯規則發現的思路還可以用於序列模式發現。用戶在購買物品時,除了具有上述關聯規律,還有時間上或序列上的規律,因爲,很多時候顧客會這次買這些東西,下次買同上次有關的一些東西,接着又買有關的某些東西。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章