《數據挖掘概念與技術》書記 1

《數據挖掘概念與技術》書記

有感知識點:

  • 數據挖掘的進化過程:
    數據庫和信息技術->數據庫系統->高級數據庫系統;高級數據分析的數據倉庫、數據挖掘;基於web的數據庫->數據倉庫
  • 數據倉庫:一種多個異構數據在單個站點以統一的模式組織的存儲,以支持管理決策。
  • 數據倉庫技術包括數據清理、數據集成和聯機分析處理(OLAP)。OLAP是一種分析技術,具有彙總、合併和聚集以及不同的角度觀察信息的能力。儘管其支持多維分析和決策,但對於深層次的分析,仍然需要其他數據挖掘工具。

數據挖掘

數據挖掘又稱數據中的知識發現(KDD),知識發現過程主要由以下步驟的迭代序列組成:

  1. 數據清理(消除噪聲和刪除不一致數據等)
  2. 數據集成(多種數據源可以組合在一起)
  3. 數據選擇(從數據庫中提取與分析任務相關的數據)
  4. 數據變化(通過彙總或聚集操作,把數據變換和統一成適合挖掘的形式)
  5. 數據挖掘(基本步驟,使用智能方法提取數據模式)
  6. 模式評估(根據某種興趣度度量,識別代表知識的真正有趣的模式)
  7. 知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識)

故數據挖掘是其中一個步驟,有些人也代稱爲整個知識發現過程。

數據挖掘是從大量數據中挖掘有趣模式和知識的過程。數據源包括數據庫、數據倉庫、Web、其他信息存儲庫或動態地流入系統的數據Log。

挖掘什麼類型的數據

  • 數據庫數據
  • 數據倉庫
  • 事務數據
  • 其他類型數據

挖掘什麼類型的模式

數據挖掘功能 類型
特徵化與區分 描述性
頻繁模式、關聯和相關性分析 描述性
分類與迴歸 預測性
聚類分析 描述性
離羣點分析 描述性

描述性挖掘任務刻畫目標數據中數據的一般性質。

預測性挖掘任務在當前數據上進行歸納,以便做出預測。

使用什麼類型的技術

  • 統計學
  • 機器學習
  • 數據庫系統與數據倉庫
  • 信息檢索

面向什麼類型的應用

  1. 商務智能

    對於客戶關係管理,進行聚類根據顧客的相似性進行分組,對其進行定製服務。

  2. Web搜索引擎

    • 必須大量並且不斷增加的數據
    • 處理在線數據,也許可以在海量數據集上離線構建模型
    • 在快速增長的數據流上維護和增量更新模型
    • 處理出現次數不多的查詢,如何解決數據傾斜

面臨什麼問題

  • 挖掘方法
  • 用戶界面
    • 交互挖掘,允許用戶在挖掘過程中動態地改變搜索的聚焦點,根據返回的結果提煉挖掘請求,並在數據和知識空間交互地進行下鑽、切塊和旋轉。
    • 結合背景知識
    • 特定的數據挖掘和數據挖掘查詢語言
    • 結果表示和可視化
  • 有效性和可伸縮性
  • 數據庫類型的多樣性
  • 數據挖掘與社會
    • 數據隱私
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章