學習筆記|數據挖掘的功能、數據類型

數據類型

對於挖掘的應用,數據的最基本形式是數據庫數據、數據倉庫數據和事務數據。

1、數據庫數據:最常見、最豐富、最主要

數據庫系統(DBMS)由一組內部相關的數據(數據庫)和一組管理和存取數據的軟件程序組成。

關係數據庫是表的彙集,每個表都被賦予一個唯一的名字。每個表都包含一組屬性(或稱爲字段、列),並且通常存放大量元組(或稱爲記錄、行)。每個元組代表一個對象,被唯一的關鍵字標識,並被一組屬性值描述。

ER數據模型:將數據庫表示成一組實體和他們之間的聯繫。

                                            

關係數據通過數據庫查詢訪問,查詢語言爲SQL。

2、數據倉庫數據

數據倉庫(Data Warehouse)是一個從多個數據源收集的信息存儲庫,存放在一致的模式下,並且通常駐留在單個站點上。數據倉庫通過數據清理、數據變換、數據集成、數據裝入和定期數據刷新來構造。

                                                           

通常用數據立方體的多維數據結構建模,每個維對應模式中的一個或一組屬性,每個單元 存放某種聚集度量值。

                                   

數據倉庫很適合聯機分析處理(OLAP),允許在不同抽象層提供數據,允許用戶在不同的彙總級別觀察數據。

3、事務數據

事務數據庫的每個記錄代表一個事務,如顧客的一次購物、一個航班訂票或一個用戶的網頁點擊等。事務可以存放在表中,每個事務一個記錄。

事務數據上的數據挖掘可以通過挖掘頻繁項集來做。

 

除了以上三種數據類型,另外還有以下類型:

時間相關或序列數據:歷史記錄、股票交易數據、時間序列和生物序列數據

數據流:視頻監控、傳感器數據

空間數據:地圖

工程設計數據:建築數據、系統部件、集成電路

超文本和多媒體數據:文本、圖像、視頻和音頻數據

圖和網絡數據:社會和信息網絡

萬維網:由Internet提供的巨型、廣泛分佈的信息存儲庫

數據挖掘功能

有了這麼多類型的數據,我們可以從中挖掘什麼模式呢,根據我們的目的不同,可以分爲幾種數據模式:

                                  

1、數據特徵化:是目標類數據的一般特性或特徵的彙總。

多種形式的輸出:餅圖、條圖等,多維數據立方體、多維表

2、數據區分:將目標數據對象的一般特性與一個或多個對比類對象的一般特性進行比較

輸出:類似特徵描述(包括比較度量)或用區分規則描述

3、頻繁模式:在數據中頻繁出現的模式

類型:頻繁項集、頻繁子序列(序列模式)、頻繁子結構

4、關聯分析:

(1)單維關聯規則:包含單個謂詞的關聯規則

buys(X,"computer")->buys(X,"software")[support=1%,confidence=50%]

(2)多維關聯規則:包含多個謂詞或多個屬性

age(X,"20...29")\wedgeincome(X,"40k...49k")->buys(X,"laptop")[support=2%,confidence=60%]

(5)相關性分析:發現相關聯的屬性-值對之間的有趣的統計相關性

5、分類:它找出描述和區分數據類或概念的模型(或函數),以便能夠使用模型預測類標號未知的對象的類標號。

導出模型:基於對訓練數據(即類標號已知的數據對象)的分析,該模型用來預測類標號未知的對象的類標號。

算法:K近鄰、決策樹、支持向量機、神經網絡。

應用:疾病診斷、圖片分類等

                                                    

6、迴歸:建立連續值函數模型,預測缺失的或難以獲得的數值數據值,而不是(離散的)類標號。(在圖像上來看就是把數據擬合成一條連續曲線)

                                                   

過擬合:所有的點都擬合到一條連續曲線上,這條曲線看似很好地考慮了所有訓練數據的特徵,但在實際預測時並不能很好泛化,因爲它think too much too specify

                                           

7、聚類分析:分析數據對象,而不考慮類標號,可以使用聚類產生數據組羣的類標號。

根據最大化類內相似性、最小化類間相似性的原則進行聚類或分組。

距離度量:歐式距離、曼哈頓距離、馬氏距離

算法:K-Means、Sequential Leader、Affinity Propagation

應用:市場研究、圖片分割、社交網絡分析

                                             

8、離羣點分析

分析對象:與一般數據的行爲或模型不一致的數據對象,即離羣點。

大部分數據挖掘方法都將離羣點視爲噪聲或者異常而丟棄,然而在一些應用中(如欺詐檢測)罕見的事件可能比正常出現的事件更令人感興趣。離羣點數據分析稱作離羣點分析或異常挖掘。

方法:統計檢驗、距離度量、基於密度的方法

             

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章