數據挖掘的基本知識

內容與技術

   
數據挖掘研究內容和本質
 隨着DMKD研究逐步走向深入,數據挖掘和知識發現的研究已經形成了三根強大的技術支柱:數據庫、人工智能和數理統計。因此,KDD大會程序委員會曾經由這三個學科的權威人物同時來任主席。目前DMKD的主要研究內容包括基礎理論、發現算法、數據倉庫、可視化技術、定性定量互換模型、知識表示方法、發現知識的維護和再利用、半結構化和非結構化數據中的知識發現以及網上數據挖掘等。

數據挖掘所發現的知識最常見的有以下四類:  
- 廣義知識(Generalization)
 廣義知識指類別特徵的概括性描述知識。根據數據的微觀特性發現其表徵的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質,是對數據的概括、精煉和抽象。

廣義知識的發現方法和實現技術有很多,如數據立方體、面向屬性的歸約等。數據立方體還有其他一些別名,如“多維數據庫”、“實現視圖”、“OLAP"等。該方法的基本思想是實現某些常用的代價較高的聚集函數的計算,諸如計數、求和、平均、最大值等,並將這些實現視圖儲存在多維數據庫中。既然很多聚集函數需經常重複計算,那麼在多維數據立方體中存放預先計算好的結果將能保證快速響應,並可靈活地提供不同角度和不同抽象層次上的數據視圖。另一種廣義知識發現方法是加拿大SimonFraser大學提出的面向屬性的歸約方法。這種方法以類SQL語言表示數據挖掘查詢,收集數據庫中的相關數據集,然後在相關數據集上應用一系列數據推廣技術進行數據推廣,包括屬性刪除、概念樹提升、屬性閾值控制、計數及其他聚集函數傳播等。
   
- 關聯知識(Association)
 它反映一個事件和其他事件之間依賴或關聯的知識。如果兩項或多項屬性之間存在關聯,那麼其中一項的屬性值就可以依據其他屬性值進行預測。最爲著名的關聯規則發現方法是R.Agrawal提出的Apriori算法。關聯規則的發現可分爲兩步。第一步是迭代識別所有的頻繁項目集,要求頻繁項目集的支持率不低於用戶設定的最低值;第二步是從頻繁項目集中構造可信度不低於用戶設定的最低值的規則。識別或發現所有頻繁項目集是關聯規則發現算法的核心,也是計算量最大的部分。
   
- 分類知識(Classification&Clustering)
 它反映同類事物共同性質的特徵型知識和不同事物之間的差異型特徵知識。最爲典型的分類方法是基於決策樹的分類方法。它是從實例集中構造決策樹,是一種有指導的學習方法。該方法先根據訓練子集(又稱爲窗口)形成決策樹。如果該樹不能對所有對象給出正確的分類,那麼選擇一些例外加入到窗口中,重複該過程一直到形成正確的決策集。最終結果是一棵樹,其葉結點是類名,中間結點是帶有分枝的屬性,該分枝對應該屬性的某一可能值。最爲典型的決策樹學習系統是ID3,它採用自頂向下不回溯策略,能保證找到一個簡單的樹。算法C4.5和C5.0都是ID3的擴展,它們將分類領域從類別屬性擴展到數值型屬性。

數據分類還有統計、粗糙集(RoughSet)等方法。線性迴歸和線性辨別分析是典型的統計模型。爲降低決策樹生成代價,人們還提出了一種區間分類器。最近也有人研究使用神經網絡方法在數據庫中進行分類和規則提取。
   
- 預測型知識(Prediction)
 它根據時間序列型數據,由歷史的和當前的數據去推測未來的數據,也可以認爲是以時間爲關鍵屬性的關聯知識。

目前,時間序列預測方法有經典的統計方法、神經網絡和機器學習等。1968年Box和Jenkins提出了一套比較完善的時間序列建模理論和分析方法,這些經典的數學方法通過建立隨機模型,如自迴歸模型、自迴歸滑動平均模型、求和自迴歸滑動平均模型和季節調整模型等,進行時間序列的預測。由於大量的時間序列是非平穩的,其特徵參數和數據分佈隨着時間的推移而發生變化。因此,僅僅通過對某段歷史數據的訓練,建立單一的神經網絡預測模型,還無法完成準確的預測任務。爲此,人們提出了基於統計學和基於精確性的再訓練方法,當發現現存預測模型不再適用於當前數據時,對模型重新訓練,獲得新的權重參數,建立新的模型。也有許多系統藉助並行算法的計算優勢進行時間序列預測。  
   
- 偏差型知識(Deviation)
 此外,還可以發現其他類型的知識,如偏差型知識(Deviation),它是對差異和極端特例的描述,揭示事物偏離常規的異常現象,如標準類外的特例,數據聚類外的離羣值等。所有這些知識都可以在不同的概念層次上被發現,並隨着概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。
   
數據挖掘的功能
 數據挖掘通過預測未來趨勢及行爲,做出前攝的、基於知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,主要有以下五類功能。  
   
- 自動預測趨勢和行爲
 數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。一個典型的例子是市場預測問題,數據挖掘使用過去有關促銷的數據來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產以及認定對指定事件最可能作出反應的羣體。  
   
- 關聯分析
 數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱爲關聯。關聯可分爲簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時並不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
   
- 聚類
 數據庫中的記錄可被化分爲一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。80年代初,Mchalski提出了概念聚類技術牞其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內涵描述,從而避免了傳統技術的某些片面性。
   
- 概念描述
 概念描述就是對某類對象的內涵進行描述,並概括這類對象的有關特徵。概念描述分爲特徵性描述和區別性描述,前者描述某類對象的共同特徵,後者描述不同類對象之間的區別。生成一個類的特徵性描述只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。
   
- 偏差檢測
 數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。
   
數據挖掘常用技術
- 人工神經網絡
 仿照生理神經網絡結構的非線形預測模型,通過學習進行模式識別。
   
- 決策樹
 代表着決策集的樹形結構。
   
- 遺傳算法
 基於進化理論,並採用遺傳結合、遺傳變異、以及自然選擇等設計方法的優化技術。
   
- 近鄰算法
 將數據集合中每一個記錄進行分類的方法。
   
- 規則推導
 從統計意義上對數據中的“如果-那麼”規則進行尋找和推導。

採用上述技術的某些專門的分析工具已經發展了大約十年的歷史,不過這些工具所面對的數據量通常較小。而現在這些技術已經被直接集成到許多大型的工業標準的數據倉庫和聯機分析系統中去了。  
 摘自《數據挖掘討論組》

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章