《數據挖掘概念與技術》書記
有感知識點:
- 數據挖掘的進化過程:
數據庫和信息技術->數據庫系統->高級數據庫系統;高級數據分析的數據倉庫、數據挖掘;基於web的數據庫->數據倉庫 - 數據倉庫:一種多個異構數據在單個站點以統一的模式組織的存儲,以支持管理決策。
- 數據倉庫技術包括數據清理、數據集成和聯機分析處理(OLAP)。OLAP是一種分析技術,具有彙總、合併和聚集以及不同的角度觀察信息的能力。儘管其支持多維分析和決策,但對於深層次的分析,仍然需要其他數據挖掘工具。
數據挖掘
數據挖掘又稱數據中的知識發現(KDD),知識發現過程主要由以下步驟的迭代序列組成:
- 數據清理(消除噪聲和刪除不一致數據等)
- 數據集成(多種數據源可以組合在一起)
- 數據選擇(從數據庫中提取與分析任務相關的數據)
- 數據變化(通過彙總或聚集操作,把數據變換和統一成適合挖掘的形式)
- 數據挖掘(基本步驟,使用智能方法提取數據模式)
- 模式評估(根據某種興趣度度量,識別代表知識的真正有趣的模式)
- 知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識)
故數據挖掘是其中一個步驟,有些人也代稱爲整個知識發現過程。
數據挖掘是從大量數據中挖掘有趣模式和知識的過程。數據源包括數據庫、數據倉庫、Web、其他信息存儲庫或動態地流入系統的數據Log。
挖掘什麼類型的數據
- 數據庫數據
- 數據倉庫
- 事務數據
- 其他類型數據
挖掘什麼類型的模式
數據挖掘功能 | 類型 |
---|---|
特徵化與區分 | 描述性 |
頻繁模式、關聯和相關性分析 | 描述性 |
分類與迴歸 | 預測性 |
聚類分析 | 描述性 |
離羣點分析 | 描述性 |
描述性挖掘任務刻畫目標數據中數據的一般性質。
預測性挖掘任務在當前數據上進行歸納,以便做出預測。
使用什麼類型的技術
- 統計學
- 機器學習
- 數據庫系統與數據倉庫
- 信息檢索
面向什麼類型的應用
-
商務智能
對於客戶關係管理,進行聚類根據顧客的相似性進行分組,對其進行定製服務。
-
Web搜索引擎
- 必須大量並且不斷增加的數據
- 處理在線數據,也許可以在海量數據集上離線構建模型
- 在快速增長的數據流上維護和增量更新模型
- 處理出現次數不多的查詢,如何解決數據傾斜
面臨什麼問題
- 挖掘方法
- 用戶界面
- 交互挖掘,允許用戶在挖掘過程中動態地改變搜索的聚焦點,根據返回的結果提煉挖掘請求,並在數據和知識空間交互地進行下鑽、切塊和旋轉。
- 結合背景知識
- 特定的數據挖掘和數據挖掘查詢語言
- 結果表示和可視化
- 有效性和可伸縮性
- 數據庫類型的多樣性
- 數據挖掘與社會
- 數據隱私