《數據挖掘概念與技術》讀書筆記

最近在學習數據挖掘和數據分析相關內容,在很多地方有很多朋友都推薦該書,遂購書一本,以作學習之用,把讀書過程中一些習得記錄在此,以備查閱。

第一章 引論

1.1 爲什麼進行數據挖掘

現在的我們生活在一個信息時代,每天都有各種各樣大量的數據產生並保存到計算機網絡和各種存儲設備中,然而如何從這些海量數據中發現有價值信息,並使之轉換爲有組織的知識,這就是數據挖掘產生的原因。

1.1.2 數據挖掘是信息技術的進化

隨着最初的數據庫技術不斷的發展:數據收集和數據庫創建數據管理高級數據分析

數據庫管理系統建立以後,數據庫技術就轉向高級數據庫系統、支持高級數據分析的數據倉庫和數據挖掘、基於Web的數據庫

數據倉庫:一種多個異構數據源在單個站點以統一的模式組織的存儲,以支持管理決策。包括數據清理、數據集成和聯機分析處理(OLAP(On-Line Analytical Processing))。

1.2 什麼是數據挖掘

數據挖掘是從大量數據中挖掘有趣模式和知識的過程,應當更正確地命名爲“從數據中挖掘知識”,很多人把其視爲數據中的知識發現(KDD) 的同義詞。

知識發現由以下步驟的迭代序列組成:

-(1) 數據清理 (消除噪聲)
-(2) 數據集成 (多種數據源可以組合在一起)
-(3) 數據選擇 (從數據庫中提取與分析任務相關的數據)
-(4) 數據變換 (通過彙總或聚集操作,把數據變換和統一成適合挖掘的形式)
-(5) 數據挖掘 (基本步驟,使用智能方法提取數據模式)
-(6) 模式評估 (根據某種興趣度度量,識別代表知識的真正有趣的模式)
-(7) 知識表示 (使用可視化和知識表示技術,向用戶提供挖掘的知識)

1.3 可以挖掘什麼類型的數據

1.3.1 數據庫系統

數據庫系統,也稱爲數據庫管理系統(DBMS),由一組內部相關的數據(稱爲數據庫)和一組管理和存取數據的軟件程序組成。

關係數據庫是表的彙集,每個表被賦予一個唯一的名字。

1.3.2 數據倉庫

數據倉庫是一個從多個數據源收集的數據存儲庫,存放在一致的模式下,並且通常組留在單個站點上。通常,數據倉庫用稱作爲數據立方體(data cube)的多維數據結構建模。其中,一個維對應於模式中的一個或一組屬性,而每個單元存放某種聚集度量值。

多維數據挖掘(又稱探索式多維數據挖掘以OLAP風格在多維空間進行數據挖掘)

1.3.3 事務數據

事務數據庫的每個記錄代表一個事務,如顧客的一次購物、一個航班訂票,或一個用戶的網頁點擊。

1.4 可以挖掘什麼類型的模式

數據挖掘功能:特徵化與區分、頻繁模式、關聯和相關性挖掘,分類與迴歸,聚類分析,離羣點分析。

分爲描述性(descriptive)預測性(predictive)

描述性挖掘任務刻畫目標數據中數據的一般性質
預測性挖掘任務在當前數據上進行歸納,以便做出預測。

1.4.1 類/概念描述:特徵化與區分

類/概念描述可以通過下述方法得到:
(1) 數據特徵化,一般地彙總所研究類(通常稱爲目標類)的數據
(2) 數據區分,將目標類與一個或多個可比較類(通常稱爲對比類)進行比較
(3) 數據特徵化和區分

數據特徵化(data characterization)是目標類數據的一般特性或特徵的彙總。數據特徵化的輸出可以用多種形式提供,如餅圖、條圖、曲線、多維數據立方體和包括交叉表在內的多維表。結果描述也可以用廣義關係或規則(稱做特徵規則)形式提供。

數據區分(data discrimination)是將目標類數據對象的一般特性與一個或多個對壁壘對象的一般特性進行比較。

用規則表示的區分描述稱爲區分規則(discriminant rule)

1.4.2 挖掘頻繁模式、關聯和相關性

頻繁模式(frequent pattern) 是在數據中頻繁出現的模式。包含頻繁項集、頻繁子系列(又稱序列模式)和頻繁子結構。頻繁項集挖掘是頻繁模式挖掘的基礎。

1.4.3 用於預測分析的分類與迴歸

分類(classification) 是這樣的過程,它找出描述和區分數據類或概念的模型,以便能夠使用模型預測類標號未知的對象的類標號。

分類預測類型(離散的、無序的)標號,而回歸建立連續值函數模型。

迴歸分析(regression analysis)是一種最常使用的數值預測的統計學方法。迴歸也包含基於可用數據的分佈趨勢識別。

相關分析(relevance analysis)可能需要在分類和迴歸之前進行,它試圖識別與分類和迴歸過程顯著相關的屬性。

1.4.4 聚類分析

聚類(clustering)分析數據對象,而不考慮類標號。

對象根據最大化類內相似性、最小化類間相似性的原則進行聚類或分組

1.4.5 離羣點分析

離羣點(outlier):數據集中可能包含一些數據對象,它們與數據的一般行爲或模型不一致,這些數據對象被稱爲離羣點。

離羣點數據分析稱作離羣點分析異常挖掘

1.4.6 所有的模式都是有趣的嗎

如果一個模式是有趣的(interesting),它可能符合以下幾點:

  • (1) 易於被人理解;
  • (2) 在某種確信度上,對於新的或檢驗數據是有效的
  • (3) 是潛在有用的
  • (4) 是新穎的

有趣的模式代表知識

模式興趣度的客觀度量
- (1) 規則的支持度(support):事務數據庫中滿足規則的事務所佔的百分比
- (2) 置信度(confidence):它評估所發現的規則的確信程度
- (3) 其他興趣度度量包括分類(IF-THEN)規則的準確率覆蓋率

主觀興趣度度量基於用戶對數據的信念。如果它們是出乎意料的(與用戶的信念相矛盾),或者提供用戶可以採取行動的至關重要的信息。在後一種情況下,這樣的模式稱爲可行動的(actionable)

1.5 使用什麼技術

數據挖掘吸納了諸如統計學、機器學習、模式識別、數據庫和數據倉庫、信息檢索、可視化、算法、高性能計算和許多應用領域的大量技術。

1.5.1 統計學

統計學研究數據的收集、分析、解釋和表示。

統計模型是一組數學函數,它們用隨機變量及其概率分佈刻畫目標類對象的行爲。統計模型廣泛用於對數據和數據類建模。

統計學研究開發一些使用數據和統計模型進行預測和預報的工具。

推理統計學(或預測統計學)用某種方式對數據建模,解釋觀測中的隨機性和確定性,並用來提取關於所考察的過程或總體的結論。

統計學方法也可以用來驗證數據挖掘結果。
統計假設檢驗(有時稱爲證實數據分析)使用實驗數據進行統計判決。

1.5.2 機器學習

機器學習考察計算機如何基於數據學習(或提高它們的性能)。其主要研究領域之一是:計算機程序基於數據自動地學習識別複雜的模式,並做出智能的決斷。

幾個概念:

  • 監督學習(supervised learning) 基本上是分類的同義詞
  • 無監督學習(unsupervised learning) 基本上是聚類的同義詞
  • 半監督學習(semi-supervised learning)是一類機器學習技術,在學習模式時,它使用標記和未標記的實例
  • 主動學習(active learning)是一種機器學習方法,它讓用戶在學習過程中扮演主動角色

1.5.3 數據庫系統與數據倉庫

數據庫系統研究 關注爲單位和最終用戶創建、維護和使用數據庫。
數據倉庫集成來自多種數據源和各個時間段的數據。

1.5.4 信息檢索

信息(IR) 檢索是搜索文檔或文檔中信息的科學。
文檔的語言模型是生成文檔中詞的包的概率密度函數。
一個文本文檔集的主題可以用詞彙表上的概率分佈建模,稱爲主題模型

1.6 面向什麼類型的應用

1.6.1 商務智能

商務智能(BI)技術提供商務運作的歷史、現狀和預測視圖。
數據挖掘是商務智能的核心。

1.6.2 Web搜索引擎

web搜索引擎本質上是大型數據挖掘應用。

1.7 數據挖掘的主要問題

包含一下五個方面:挖掘方法、用戶交互、有效性與可伸縮性、數據類型的多樣性、數據挖掘與社會。

1.7.1 挖掘方法

挖掘方法應該考慮諸如數據的不確定性、噪聲和不完全性等問題。

數據挖掘方法的考察點:

  • 挖掘各種新的知識類型:數據挖掘廣泛涵蓋數據分析和知識發現的任務,從數據特徵化與區分到關聯與相關性分析、分類、迴歸、聚類、離羣點分析、序列分析以及趨勢和演變分析。
  • 挖掘多維空間中的知識:在大型數據集中搜索知識時,我們可能探索多維空間中的數據。被稱爲(探索式)多維數據挖掘。
  • 數據挖掘–跨學科的努力:通過集成來自多學科的新方法可以顯著增強數據挖掘的能力。
  • 提升網絡環境下的發現能力: 大部分對象之間駐留在鏈接或互連的環境中,無論是Web、數據庫關係、文件還是文檔。
  • 處理不確定性、噪聲或不完全數據:數據常常包含噪聲、錯誤、異常、不確定性,或者是不完全的。數據清理、數據預處理、離羣點檢測與刪除以及不確定性推理都是需要與數據挖掘過程集成的技術。
  • 模式評估和模式或約束指導的挖掘:數據挖掘過程產生的所有模式並非都是有趣的。認定哪些模式有趣可能因用戶而異。因此,需要一種技術來評估基於主觀度量所發現的模式的興趣度。

1.7.2 用戶界面

  • 交互挖掘
  • 結合背景知識
  • 特定的數據挖掘和數據挖掘查詢語言
  • 數據挖掘結果的表示和可視化

1.7.3 有效性和可伸縮性

  • 數據挖掘算法的有效性和可伸縮性
  • 並行、分佈式和增量挖掘方法

1.7.4 數據庫類型的多樣性

  • 處理複雜的數據類型
  • 挖掘動態的、網絡的、全球的數據庫

1.7.5 數據挖掘與社會

  • 數據挖掘的社會影響
  • 保護隱私的數據挖掘
  • 無形的數據挖掘
發佈了207 篇原創文章 · 獲贊 1656 · 訪問量 216萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章