一、分類
利用分類技術可以從數據集中提取描述數據類的一個函數或模型(也常稱分類器),並把數據集中的每個對象歸結到某個已知的對象類中。從機器學習的觀點,分類技術是一種有指導的學習,即每個訓練樣本的數據對象已經有類標識,通過學習可以形成表達數據對象與類表示間對應的知識。即數據挖掘的目標就是根據樣本數據形成的類的知識並對源數據進行分類,進而也可以預測未來數據的歸類。
分類技術具有廣泛的應用,比如醫療診斷,信用卡的信用分級,圖像模式識別等。
分類挖掘所獲的分類模型可以採用多種形式加以描述輸出,比如:分類規則,決策樹,數學公式和神經網絡。二、聚類
在機器學習中,聚類是一種無指導學習,即聚類是在預先不知道欲劃分類的情況下,根據信息相似度原則進行信息聚類的一種方法。
聚類的目的是使得同類別的對象之間的差別儘量小,而不同類別上的差別儘可能的大。因此,聚類的意義在於將觀察的內容組織成類分層結構,把類似的事物組織在一起。
聚類技術主要以統計方法、機器學習、空間數據庫技術、生物學以及時常營銷等方法。
常見的聚類算法有:K-均值聚類算法、K-中心點聚類算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。