數據倉庫與數據挖掘概述

原創

键盘里敲打出的巨人

2020-02-21 09:22

數據倉庫與數據挖掘概述

1. 數據倉庫與傳統數據庫

傳統型數據庫
- 定義：面向業務，對事物進行處理
- 類似關係型數據庫，對數據進行增刪改查
數據倉庫
- 定義：面向主題，集成，穩定，隨時間變化的數據集，支持管理決策過程
- 數據倉庫的數據來源：
  - DB，數據文件，其他數據運用數據ETL工具進行數據獲取
    
    ETL,用來描述將數據從來源端經過抽取（extract）、轉換（transform）、加載（load）至目的端的過程
    
    講解
兩者關係
1. 構建目的
  - 傳統—> 處理日常事務
  - 數據倉庫—> 爲幫助管理者做決策
傳統型數據庫是創建數據倉庫的一個數據源

2. 數據挖掘與機器學習

什麼是數據挖掘
- 定義：試圖從海量數據中找出有用的知識
- 相識的知識發現：指發現的規則
什麼是機器學習
- 定義：利用經驗改善計算機系統自身的性能

3. 數據挖掘簡要分析

3.1 數據挖掘的主要任務

3.1.1 預測型

也可以說是有監督學習：分類迴歸，離羣點檢測等

數據已經給出樣本類別，答案等。

分類分析：用某種分類算法對錶中數據進行分析，挖掘分類規則
規則應用：利用數據分析預測新數據的類別，對其錄入規則。

3.1.2 描述型

也爲無監督學習：聚類, 關聯分析,序列模式等

不知道類別和答案等

用聚類算法，根據給定的某種相似度標準，將沒有類別標記的數據庫記錄集劃分成若干個不相交子集（簇），使簇內的記錄之間相似度很高，不同簇相似度低。

類別	取值範圍	理論上取值個數
離散型	字母或自然數	有限；可能無限
連續型	一個實數區間內	不可數，無限

3.2 不同任務所需算法簡述

分類：模型輸出爲離散型，朴樹貝斯，決策樹，邏輯迴歸算法，KNN
迴歸：模型輸出爲連續型
聚類： k-mean算法，層次聚類。
關聯分析： Apriori等
序列模型：類Apriori等

4. 數據

定義：一切可被記錄的

用來描述對象的屬性。
- id：標識碼主鍵
- 屬性名：特徵
- 取值：特徵的值
數據預處理
- 數據清洗：洗出主要數據
- 數據集成：對多個數據源進行同一
- 數據變換
- 數據歸約
- 數據離散化

鍵盤裏敲打出的巨人

發佈了65 篇原創文章 · 獲贊 27 · 訪問量 2萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

HDFS 原理（簡述）

HDFS 原理（簡述）目標緣由：硬件經常錯誤，壽命短，因此需要冗餘也是嵌入了備份多個數據。對大數據進行規模一致性模型，一寫入就不能修改，只能刪除在重發。 <a href =“#d1">HDFS 體系 NameNode Dam

键盘里敲打出的巨人

2020-07-04 10:34:26

c++ 表達式和各種轉換運算符介紹

表達式 1. 基礎 c++ 定義了一元和二元運算符一元：&, *:取地址和解引用二元： ==, * 相等和乘法三元：作用與三個對象的 1.1 組合運算符和運算對象優先級結合律運算對象轉換重載運

键盘里敲打出的巨人

2020-07-04 10:34:26

變量和基本類型（基於c++）

變量和基本類型（基於c++） 1. 基本內置類型算術類型: 字符、整數、布爾值、浮點數空類型：不對應具體的值，用於特殊場合 1.1 算術類型整型（布爾，字符）浮點型 [外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將

键盘里敲打出的巨人

2020-07-04 10:34:26

進程和線程的隨筆和簡述

虛擬內存技術每個進程看到自己獨佔一部分空間，但其實所有進程是共享一個物理內存，進程創建的時候，內核爲建立了虛擬內存的佈局，初始化進程控制表中相關的鏈表，但沒有立刻拷貝對應數據和代碼到當前位置，就是在進程運行時要分配動態內

键盘里敲打出的巨人

2020-07-04 10:34:26

c++ 基礎語句簡述

键盘里敲打出的巨人

2020-03-03 01:57:04

字符串、向量和數組

键盘里敲打出的巨人

2020-02-29 17:38:13

HDFS 操作(Centos7環境下)

键盘里敲打出的巨人

2020-02-25 08:37:49

華爲雲購買與基礎linux 命令

键盘里敲打出的巨人

2020-02-21 09:22:34

數據分析與數據挖掘基礎認識

键盘里敲打出的巨人

2020-02-21 09:22:33

HDFS 原理（簡述）

HDFS 原理（簡述）目標緣由：硬件經常錯誤，壽命短，因此需要冗餘也是嵌入了備份多個數據。對大數據進行規模一致性模型，一寫入就不能修改，只能刪除在重發。 <a href =“#d1">HDFS 體系 NameNode Dam

键盘里敲打出的巨人

2020-07-04 10:34:26

c++ 表達式和各種轉換運算符介紹

表達式 1. 基礎 c++ 定義了一元和二元運算符一元：&, *:取地址和解引用二元： ==, * 相等和乘法三元：作用與三個對象的 1.1 組合運算符和運算對象優先級結合律運算對象轉換重載運

键盘里敲打出的巨人

2020-07-04 10:34:26

變量和基本類型（基於c++）

變量和基本類型（基於c++） 1. 基本內置類型算術類型: 字符、整數、布爾值、浮點數空類型：不對應具體的值，用於特殊場合 1.1 算術類型整型（布爾，字符）浮點型 [外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將

键盘里敲打出的巨人

2020-07-04 10:34:26

進程和線程的隨筆和簡述

虛擬內存技術每個進程看到自己獨佔一部分空間，但其實所有進程是共享一個物理內存，進程創建的時候，內核爲建立了虛擬內存的佈局，初始化進程控制表中相關的鏈表，但沒有立刻拷貝對應數據和代碼到當前位置，就是在進程運行時要分配動態內

键盘里敲打出的巨人

2020-07-04 10:34:26

c++ 基礎語句簡述

键盘里敲打出的巨人

2020-03-03 01:57:04

字符串、向量和數組

键盘里敲打出的巨人

2020-02-29 17:38:13

24小時熱門文章

最新文章

最新評論文章