數據挖掘(KDD)初學基礎概要

數據挖掘(KDD)Knowledge discovery in database

從各種各樣的應用數據中發現有趣數據模式。
數據源包括:數據庫、數據倉庫、Web、其他信息存儲庫。
可挖掘的數據類型:數據庫數據、數據倉庫數據、事務數據。

1. 數據庫數據
即數據庫系統(也稱數據庫管理系統:由一組內部相關的數據,即數據庫;一組管理存取數據的軟件程序組成)裏的數據。最常用的是關係數據庫。
關係數據庫是一組的彙集,每個表由許多元組構成,每個元組代表一個對象,有唯一的標識符(關鍵字),且有許多屬性組成。

2. 數據倉庫
是一個從多個數據源收集的信息存儲庫,並存放在一個模式下,在單個站點。
數據倉庫通過:數據清理、數據變換、數據集成、數據裝入、定期數據刷新來構造。

3. 事務數據
事務數據庫的每個記錄代表一個事務,如顧客的一次購物。一個事務包含唯一的標識符ID,以及一組構成事務的。(如購物籃分析(關聯規則))。

其他類型數據的挖掘概述
除了以上數據外,還有其他各種形式和結構的數據。如下:
1.時間相關或序列數據 eg. 股票交易、歷史記錄、時間序列
2.數據流 eg. 視頻監控、傳感器數據,他們連續播放
3. 空間數據 eg. 地圖
4. 工程設計數據 eg. 建築數據、系統部件
5. 圖和網狀數據 eg. 社會和信息網絡

我們可以挖掘什麼?
挖掘計算機網絡數據,根據消息流的異常進行入侵檢測。這種異常可以通過聚類、流模型的動態構建,或把當前的頻繁模式和先前的比較來發現。
挖掘空間數據,可以得到根據城市離主要公路的距離,描述都市貧困率的變化趨勢的模式。
挖掘文本數據,通過挖掘客戶對產品發表的評論,可以評估客戶的意見,瞭解產品被市場接受的程度。

可以挖掘什麼類型的模式?
數據挖掘的功能主要有:
1.特徵化與區分
2.頻繁模式、關聯和相關性挖掘
3.分類與迴歸
4.聚類分析
5.離羣點分析

數據挖掘的功能主要用於指定,數據挖掘任務中發現的模式。一般分爲描述性任務、預測性任務。
1.特徵化與區分(通過類/概念描述)
數據特徵化:是對目標數據特性或特徵的彙總。
數據區分:將目標數據一般特性與多個對比類對象的一般特性進行比較。
2.挖掘頻繁模式、關聯和相關性
在購物籃分析中,通過關聯規則可獲得滿足支持度和置信度的不同商品強關聯規則。
3.用於預測分析的分類與迴歸
分類(類標號預測):決策樹、神經網絡、樸素貝葉斯分類、支持向量機、k最近鄰分類。
迴歸(數值預測):建立連續型函數模型,預測缺失值。
4.聚類分析
不考慮類標號,分析數據對象進行聚類,使類(簇)內相似度最大,類間相似度最小。
5.離羣點分析
通常情況下離羣點被視爲噪聲點被丟棄。但在一些應用中(如,欺詐檢測)。也稱異常挖掘。

相關學習
統計學、機器學習、模式識別、可視化、數據庫和數據倉庫、算法、信息檢索等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章