數據挖掘（KDD）初學基礎概要

數據挖掘（KDD）Knowledge discovery in database

從各種各樣的應用數據中發現有趣數據模式。
數據源包括：數據庫、數據倉庫、Web、其他信息存儲庫。
可挖掘的數據類型：數據庫數據、數據倉庫數據、事務數據。

1. 數據庫數據
即數據庫系統（也稱數據庫管理系統：由一組內部相關的數據，即數據庫;一組管理；存取數據的軟件程序組成）裏的數據。最常用的是關係數據庫。
關係數據庫是一組表的彙集，每個表由許多元組構成，每個元組代表一個對象，有唯一的標識符（關鍵字），且有許多屬性組成。

2. 數據倉庫
是一個從多個數據源收集的信息存儲庫，並存放在一個模式下，在單個站點。
數據倉庫通過：數據清理、數據變換、數據集成、數據裝入、定期數據刷新來構造。

3. 事務數據
事務數據庫的每個記錄代表一個事務，如顧客的一次購物。一個事務包含唯一的標識符ID，以及一組構成事務的項。（如購物籃分析（關聯規則））。

其他類型數據的挖掘概述
除了以上數據外，還有其他各種形式和結構的數據。如下：
1.時間相關或序列數據 eg. 股票交易、歷史記錄、時間序列
2.數據流 eg. 視頻監控、傳感器數據，他們連續播放
3. 空間數據 eg. 地圖
4. 工程設計數據 eg. 建築數據、系統部件
5. 圖和網狀數據 eg. 社會和信息網絡

我們可以挖掘什麼？
挖掘計算機網絡數據，根據消息流的異常進行入侵檢測。這種異常可以通過聚類、流模型的動態構建，或把當前的頻繁模式和先前的比較來發現。
挖掘空間數據，可以得到根據城市離主要公路的距離，描述都市貧困率的變化趨勢的模式。
挖掘文本數據，通過挖掘客戶對產品發表的評論，可以評估客戶的意見，瞭解產品被市場接受的程度。

可以挖掘什麼類型的模式？
數據挖掘的功能主要有：
1.特徵化與區分
2.頻繁模式、關聯和相關性挖掘
3.分類與迴歸
4.聚類分析
5.離羣點分析

數據挖掘的功能主要用於指定，數據挖掘任務中發現的模式。一般分爲描述性任務、預測性任務。
1.特徵化與區分（通過類/概念描述）
數據特徵化：是對目標數據特性或特徵的彙總。
數據區分：將目標數據一般特性與多個對比類對象的一般特性進行比較。
2.挖掘頻繁模式、關聯和相關性
在購物籃分析中，通過關聯規則可獲得滿足支持度和置信度的不同商品強關聯規則。
3.用於預測分析的分類與迴歸
分類（類標號預測）：決策樹、神經網絡、樸素貝葉斯分類、支持向量機、k最近鄰分類。
迴歸（數值預測）：建立連續型函數模型，預測缺失值。
4.聚類分析
不考慮類標號，分析數據對象進行聚類，使類（簇）內相似度最大，類間相似度最小。
5.離羣點分析
通常情況下離羣點被視爲噪聲點被丟棄。但在一些應用中（如，欺詐檢測）。也稱異常挖掘。

相關學習
統計學、機器學習、模式識別、可視化、數據庫和數據倉庫、算法、信息檢索等。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據挖掘（KDD）初學基礎概要

數據挖掘（KDD）Knowledge discovery in database

信息論基礎

數據挖掘——分類

數據預處理——框架總結篇

聚類分析——聚類

數據挖掘（KDD）初學基礎概要

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結