數據挖掘和數據倉庫

數據挖掘和數據倉庫

數據挖掘

概念

基於AI、機器學習、統計學等技術,高度自動化的分析原有數據,進行歸納推理,從數據倉庫中提取可信的、新穎的、有效的、人們感興趣的、別人能理解的知識的高級處理過程。

模式分類:

預測性模式或描述性模式

實際應用中可細分爲:關聯模式、分類模式、聚類模式、序列模式

目的

提高市場的決策能力,檢測異常模式,在過去經驗的基礎上預言未來的趨勢。

在數據庫中找規律

步驟:

  • 數據準備
    • 數據集成
    • 數據選擇
    • 預分析
  • 挖掘
    • 過程:
      • 數據的選擇:選擇相關的數據
      • 數據的精華 :消除噪音、冗餘數據
      • 數據的推測:推算缺失數據
      • 數據的轉換:離散值數據與連續數據之間的相互轉換、數據值的分組分類、數據項之間的計算組合。
      • 數據的縮減:減少數據量
  • 表述
  • 評價

數據挖掘的任務

從大量的數據中發現模式:

  • 預測模型
    • 迴歸分析
    • 線性模型
    • 關聯規則
    • 決策樹預測
    • 遺傳算法
    • 神經網絡
  • 關聯分析
    • 目的:發現項目集之間的關聯
    • 算法:APRIORI算法、DHP算法、DIC算法等
    • 在這些算法中常常引入置信度和支持度兩個概念
  • 分類分析
    • 根據數據的特徵爲每個類別建立一個模型,根據數據的屬性將數據分配到不同的組中。
    • 常用算法:約略(Rough)集、決策樹、神經網絡、統計分析法
  • 聚類分析
    • 將彼此間非常"相似"的數據對象分成一個集合,相似的程度可以通過距離函數表示
    • 常用算法:隨機搜索聚類法、特徵聚類、CF樹
  • 序列分析
    • 主要應用於分析數據倉庫中的某類和時間相關的數據,搜索類似的序列和子序列,並挖掘時序模式、週期性、趨勢和偏離等。
  • 偏差檢測
  • 模式相似性挖掘
  • Web數據挖掘

數據挖掘的結構

採用三層C/S結構:用戶界面、數據挖掘引擎、數據倉庫

數據挖掘的常用技術

  • 生物學方法
    • 人工神經網絡
    • 遺傳算法
  • 信息論方法
    • 決策樹
  • 集合論方法
    • 約略集
    • 模糊集
    • 最近鄰技術
  • 統計學方法
  • 可視化方法

數據準備

準備的是否充分影響到數據挖掘的效率和準確度,以及最終模式的有效性,Include:

  • 數據的選擇,選擇相關的數據
  • 數據的精華,消除噪音,冗餘數據
  • 數據的推測,
  • 數據的轉化
  • 數據的縮減

數據倉庫

存在的意義:

頻繁交互數據庫的同時進行大量複雜運算,會有很高的時間複雜度。So。。

適用範圍

  • 信息源中的數據變化穩定
  • 可預測應用不需要更新的數據
  • 允許有延遲,應用要求有較高的查詢性能而降低精度要求。

特點

  • 面向主題
  • 集成性
  • 穩定性
  • 時變性

技術要求

  • 大量數據的組織和管理
  • 複雜分析的高性能體現
  • 懟提取出來的數據進行集成
  • 界面支持
數據庫 數據倉庫
主要任務 OLTP(聯機事務處理) OLAP(聯機分析處理)
細節的 綜合的
在存取瞬間是準確的 代表過去的數據
可更新 不可更新、只讀
面向應用 面向分析
一次操作數據量小 一次操作數據量大
操作需求可事先知道 操作需要事先不知道
Q:那直接用數據倉庫不就行了,爲什麼要分離?

A:主要原因是提高兩個系統的性能,數據庫是爲已知的任務和負載設計的

而數據倉庫的查詢通常是複雜的,設計大量數據在彙總級的計算,在操作數據庫系統上處理OLAP查詢,會打打降低操作任務的性能。

數據倉庫的實現

立方體計算:立方體總數T如果10維每維4個層次產生的方體數是5的10次方。

So,物化所有方體是不現實的,比較合理的方法是物化部分

Q:數據挖掘和數據倉庫爲什麼聯合使用

A:談麼你都可以完成決策的過程的支持,並且相互間有一定的內在聯繫,集成在一起可以更加有效的提高系統的決策支持能力。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章