數據挖掘和數據倉庫
數據挖掘
概念
基於AI、機器學習、統計學等技術,高度自動化的分析原有數據,進行歸納推理,從數據倉庫中提取可信的、新穎的、有效的、人們感興趣的、別人能理解的知識的高級處理過程。
模式分類:
預測性模式或描述性模式
實際應用中可細分爲:關聯模式、分類模式、聚類模式、序列模式
目的
提高市場的決策能力,檢測異常模式,在過去經驗的基礎上預言未來的趨勢。
在數據庫中找規律
步驟:
- 數據準備
- 數據集成
- 數據選擇
- 預分析
- 挖掘
- 過程:
- 數據的選擇:選擇相關的數據
- 數據的精華 :消除噪音、冗餘數據
- 數據的推測:推算缺失數據
- 數據的轉換:離散值數據與連續數據之間的相互轉換、數據值的分組分類、數據項之間的計算組合。
- 數據的縮減:減少數據量
- 過程:
- 表述
- 評價
數據挖掘的任務
從大量的數據中發現模式:
- 預測模型
- 迴歸分析
- 線性模型
- 關聯規則
- 決策樹預測
- 遺傳算法
- 神經網絡
- 關聯分析
- 目的:發現項目集之間的關聯
- 算法:APRIORI算法、DHP算法、DIC算法等
- 在這些算法中常常引入置信度和支持度兩個概念
- 分類分析
- 根據數據的特徵爲每個類別建立一個模型,根據數據的屬性將數據分配到不同的組中。
- 常用算法:約略(Rough)集、決策樹、神經網絡、統計分析法
- 聚類分析
- 將彼此間非常"相似"的數據對象分成一個集合,相似的程度可以通過距離函數表示
- 常用算法:隨機搜索聚類法、特徵聚類、CF樹
- 序列分析
- 主要應用於分析數據倉庫中的某類和時間相關的數據,搜索類似的序列和子序列,並挖掘時序模式、週期性、趨勢和偏離等。
- 偏差檢測
- 模式相似性挖掘
- Web數據挖掘
數據挖掘的結構
採用三層C/S結構:用戶界面、數據挖掘引擎、數據倉庫
數據挖掘的常用技術
- 生物學方法
- 人工神經網絡
- 遺傳算法
- 信息論方法
- 決策樹
- 集合論方法
- 約略集
- 模糊集
- 最近鄰技術
- 統計學方法
- 可視化方法
數據準備
準備的是否充分影響到數據挖掘的效率和準確度,以及最終模式的有效性,Include:
- 數據的選擇,選擇相關的數據
- 數據的精華,消除噪音,冗餘數據
- 數據的推測,
- 數據的轉化
- 數據的縮減
數據倉庫
存在的意義:
頻繁交互數據庫的同時進行大量複雜運算,會有很高的時間複雜度。So。。
適用範圍
- 信息源中的數據變化穩定
- 可預測應用不需要更新的數據
- 允許有延遲,應用要求有較高的查詢性能而降低精度要求。
特點
- 面向主題
- 集成性
- 穩定性
- 時變性
技術要求
- 大量數據的組織和管理
- 複雜分析的高性能體現
- 懟提取出來的數據進行集成
- 界面支持
數據庫 | 數據倉庫 | |
---|---|---|
主要任務 | OLTP(聯機事務處理) | OLAP(聯機分析處理) |
細節的 | 綜合的 | |
在存取瞬間是準確的 | 代表過去的數據 | |
可更新 | 不可更新、只讀 | |
面向應用 | 面向分析 | |
一次操作數據量小 | 一次操作數據量大 | |
操作需求可事先知道 | 操作需要事先不知道 |
Q:那直接用數據倉庫不就行了,爲什麼要分離?
A:主要原因是提高兩個系統的性能,數據庫是爲已知的任務和負載設計的
而數據倉庫的查詢通常是複雜的,設計大量數據在彙總級的計算,在操作數據庫系統上處理OLAP查詢,會打打降低操作任務的性能。
數據倉庫的實現
立方體計算:立方體總數T如果10維每維4個層次產生的方體數是5的10次方。
So,物化所有方體是不現實的,比較合理的方法是物化部分
Q:數據挖掘和數據倉庫爲什麼聯合使用
A:談麼你都可以完成決策的過程的支持,並且相互間有一定的內在聯繫,集成在一起可以更加有效的提高系統的決策支持能力。