數據挖掘和數據倉庫

原創

un_lock

2020-06-16 07:07

數據挖掘和數據倉庫

數據挖掘

概念

基於AI、機器學習、統計學等技術，高度自動化的分析原有數據，進行歸納推理，從數據倉庫中提取可信的、新穎的、有效的、人們感興趣的、別人能理解的知識的高級處理過程。

模式分類：

預測性模式或描述性模式

實際應用中可細分爲：關聯模式、分類模式、聚類模式、序列模式

目的

提高市場的決策能力，檢測異常模式，在過去經驗的基礎上預言未來的趨勢。

在數據庫中找規律

步驟：

數據準備
- 數據集成
- 數據選擇
- 預分析
挖掘
- 過程：
  - 數據的選擇：選擇相關的數據
  - 數據的精華：消除噪音、冗餘數據
  - 數據的推測：推算缺失數據
  - 數據的轉換：離散值數據與連續數據之間的相互轉換、數據值的分組分類、數據項之間的計算組合。
  - 數據的縮減：減少數據量
表述
評價

數據挖掘的任務

從大量的數據中發現模式：

預測模型
- 迴歸分析
- 線性模型
- 關聯規則
- 決策樹預測
- 遺傳算法
- 神經網絡
關聯分析
- 目的：發現項目集之間的關聯
- 算法：APRIORI算法、DHP算法、DIC算法等
- 在這些算法中常常引入置信度和支持度兩個概念
分類分析
- 根據數據的特徵爲每個類別建立一個模型，根據數據的屬性將數據分配到不同的組中。
- 常用算法：約略(Rough)集、決策樹、神經網絡、統計分析法
聚類分析
- 將彼此間非常"相似"的數據對象分成一個集合，相似的程度可以通過距離函數表示
- 常用算法：隨機搜索聚類法、特徵聚類、CF樹
序列分析
- 主要應用於分析數據倉庫中的某類和時間相關的數據，搜索類似的序列和子序列，並挖掘時序模式、週期性、趨勢和偏離等。
偏差檢測
模式相似性挖掘
Web數據挖掘

數據挖掘的結構

採用三層C/S結構：用戶界面、數據挖掘引擎、數據倉庫

數據挖掘的常用技術

生物學方法
- 人工神經網絡
- 遺傳算法
信息論方法
- 決策樹
集合論方法
- 約略集
- 模糊集
- 最近鄰技術
統計學方法
可視化方法

數據準備

準備的是否充分影響到數據挖掘的效率和準確度，以及最終模式的有效性,Include:

數據的選擇，選擇相關的數據
數據的精華，消除噪音，冗餘數據
數據的推測，
數據的轉化
數據的縮減

數據倉庫

存在的意義：

頻繁交互數據庫的同時進行大量複雜運算，會有很高的時間複雜度。So。。

適用範圍

信息源中的數據變化穩定
可預測應用不需要更新的數據
允許有延遲，應用要求有較高的查詢性能而降低精度要求。

特點

面向主題
集成性
穩定性
時變性

技術要求

大量數據的組織和管理
複雜分析的高性能體現
懟提取出來的數據進行集成
界面支持

	數據庫	數據倉庫
主要任務	OLTP(聯機事務處理)	OLAP(聯機分析處理)
	細節的	綜合的
	在存取瞬間是準確的	代表過去的數據
	可更新	不可更新、只讀
	面向應用	面向分析
	一次操作數據量小	一次操作數據量大
	操作需求可事先知道	操作需要事先不知道

Q：那直接用數據倉庫不就行了，爲什麼要分離？

A：主要原因是提高兩個系統的性能，數據庫是爲已知的任務和負載設計的

而數據倉庫的查詢通常是複雜的，設計大量數據在彙總級的計算，在操作數據庫系統上處理OLAP查詢，會打打降低操作任務的性能。

數據倉庫的實現

立方體計算：立方體總數T如果10維每維4個層次產生的方體數是5的10次方。

So，物化所有方體是不現實的，比較合理的方法是物化部分

Q:數據挖掘和數據倉庫爲什麼聯合使用

A:談麼你都可以完成決策的過程的支持，並且相互間有一定的內在聯繫，集成在一起可以更加有效的提高系統的決策支持能力。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據挖掘和數據倉庫

數據挖掘和數據倉庫

數據挖掘

概念

模式分類：

目的

步驟：

數據挖掘的結構

數據挖掘的常用技術

數據準備

數據倉庫

存在的意義：

適用範圍

特點

技術要求

Q：那直接用數據倉庫不就行了，爲什麼要分離？

數據倉庫的實現

Q:數據挖掘和數據倉庫爲什麼聯合使用

關於遊戲付費的一點想法

我通過CKA和CKS啦！

Paddle_程序員必備的數學知識_轉發

一篇博客入門pandas模塊

一篇博客入門Numpy模塊

Numpy模塊下np.clip()方法的使用

數據挖掘和數據倉庫

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結