數據挖掘——基本概念

原創

2020-06-20 06:37

1、定義：對於數據挖掘我們可以從兩個角度來定義它：

a. 技術定義：數據挖掘是通過對大量的數據進行分析，以發現和提取隱含在其中的具有價值的信息和知識的過程。

b.商業定義：數據挖掘是一種新的商業信息處理技術，其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理，從中提取輔助商業決策的關建化數據。

2、數據挖掘的主要模型有：分類與預測，聚類和關聯分析等；

分類：即是通過訓練集訓練得到一個分類模型，然後用此分類來對測試集中的樣本進行分類；

聚類：是一種無監督的機器學習方法，主要是指依據樣本間的相似性度量標準將數據集劃分爲多個簇集，每個簇集中對象間的相似度最大化，而不同簇集的樣本間的相似度最小化。（簇的表示形式和簇間相似度的定義是最基礎的問題。常見的相似度定義可以使用餘弦相似度、歐幾里得距離公式等；）

關聯分析：是爲了發現數據中的關聯規則，這些規則展現屬性-值頻繁地在給定數據集中一起出現的條件。關聯分析廣泛應用與購物籃或事務數據分析。

PS:分類是示例式學習，要求分類前明確各個類別，並斷言每個元素映射到一個類別，而聚類是觀察式學習，在聚類前可以不知道類別甚至不給定類別數量，是無監督學習的一種。

3、數據集的一般特點：維度、稀疏性和分辨率；

維度：指數據集中數據對象的屬性數目，低緯度數據往往和高維度數據有質的不同。

稀疏性：指一個對象的大部分屬性上的值爲0，實際上稀疏性是一個優點，因爲只有非0值才需要存儲和處理，這導致節省了大量的計算時間和存儲時間。

分辨率：即測量的尺度，在不同的分辨率下得到的數據的性質不同。

4、數據預處理：高質量的數據是進行有效數據挖掘的前提，數據預處理的過程主要有數據清理，數據集成，數據變換等。

數據清理：主要是爲了試圖填充缺失值、去除噪聲、並識別離羣點；

數據集成：指將多個數據源中的數據存放在一個一致的數據存儲設備中。數據集成中的數據一致性（不同表中可能使用不同的名稱來指示同一個屬性）和冗餘（如果對象的一個屬性能夠由另一個表導出）是兩個重要的問題。

數據變換：指將數據轉換成適合挖掘的形式。如可通過規範化將屬性數據按照比例縮放，使之落入一個小的特定區間，如0-1之間。也可利用已知屬性，通過構造新的特徵來更好的刻畫數據的特性，幫助挖掘過程。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.