數據挖掘——基本概念

1、定義:對於數據挖掘我們可以從兩個角度來定義它:

a. 技術定義:數據挖掘是通過對大量的數據進行分析,以發現和提取隱含在其中的具有價值的信息和知識的過程。

b.商業定義: 數據挖掘是一種新的商業信息處理技術, 其主要特點是對商業數據庫中的大量業務數據進行抽取、 轉換、 分析和其他模型化處理, 從中提取輔助商業決策的關建化數據。

2、數據挖掘的主要模型有:分類與預測,聚類和關聯分析等;

分類:即是通過訓練集訓練得到一個分類模型,然後用此分類來對測試集中的樣本進行分類;

聚類:是一種無監督的機器學習方法,主要是指依據樣本間的相似性度量標準將數據集劃分爲多個簇集,每個簇集中對象間的相似度最大化,而不同簇集的樣本間的相似度   最小化。(簇的表示形式和簇間相似度的定義是最基礎的問題。常見的相似度定義可以使用餘弦相似度、歐幾里得距離公式等;)

關聯分析:是爲了發現數據中的關聯規則,這些規則展現屬性-值頻繁地在給定數據集中一起出現的條件。關聯分析廣泛應用與購物籃或事務數據分析。

PS:分類是示例式學習,要求分類前明確各個類別,並斷言每個元素映射到一個類別,而聚類是觀察式學習,在聚類前可以不知道類別甚至不給定類別數量,是無監督學習的一種。

3、數據集的一般特點:維度、稀疏性和分辨率;

維度:指數據集中數據對象的屬性數目,低緯度數據往往和高維度數據有質的不同。

稀疏性:指一個對象的大部分屬性上的值爲0,實際上稀疏性是一個優點,因爲只有非0值才需要存儲和處理,這導致節省了大量的計算時間和存儲時間。

分辨率:即測量的尺度,在不同的分辨率下得到的數據的性質不同。

4、數據預處理:高質量的數據是進行有效數據挖掘的前提,數據預處理的過程主要有數據清理,數據集成,數據變換等。

數據清理:主要是爲了試圖填充缺失值、去除噪聲、並識別離羣點;

數據集成:指將多個數據源中的數據存放在一個一致的數據存儲設備中。數據集成中的數據一致性(不同表中可能使用不同的名稱來指示同一個屬性)和冗餘(如果對象的一個屬性能夠由另一個表導出)是兩個重要的問題。

數據變換:指將數據轉換成適合挖掘的形式。如可通過規範化將屬性數據按照比例縮放,使之落入一個小的特定區間,如0-1之間。也可利用已知屬性,通過構造新的特徵來更好的刻畫數據的特性,幫助挖掘過程。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章