數據對象的屬性(特徵)類型

   在數據挖掘/機器學習過程中,當我們在對屬性進行處理時,分清屬性的類型是有必要的,不同類型的屬性需要使用不同的處理方法,如在對對象的標識列進行處理時,對該列進行數學運算是沒有意義的,因爲對象的標識列一般是標稱屬性,只是起到唯一標識的作用。數據對象的屬性類型可以用下圖來概括:

   從圖中可以看出,數據對象的屬性類型可以分爲標稱屬性、二元屬性、序數屬性、數值屬性四大類。其中二元屬性是標稱屬性的特例。下面從各種屬性類型的特點、可以使用的中心趨勢度量、是否可以離散化三個維度來概括。

1 標稱屬性

   標稱屬性的值是一些符號或事物的名稱,但可以用數字表示這些符號或名稱,標稱屬性的值是枚舉的。常見的標稱屬性如姓名、籍貫等。鑑於標稱屬性的特點,統計它的中位數和均值是沒有意義的,但是我可找出某個出現次數最多的值,比如,出現次數最多的姓名,這個就可以用衆數來表示。因此,標稱屬性的中心趨勢度量一般是衆數。

2 二元屬性

   二元屬性是標稱屬性的特例,也是一種布爾屬性,對應01兩個狀態,分別表示falsetrue。常見的二元屬性如拋一枚硬幣是正面朝上還是反面朝上,患者的檢查結果爲陰性還是陽性。二元屬性分爲對稱的和非對稱的,如果屬性的狀態結果是同等重要的,如拋硬幣的結果狀態,則該屬性是對稱的二元屬性,反之爲非對稱二元屬性。由於二元屬性也是標稱屬性的一種,因此只能用衆數來統計二元屬性。

3 序數屬性

   序數屬性的可能值之間存在有意義的序或秩評定,但是相繼值之間的差是未知的,常見的序數屬性如上衣的尺寸有SMLXL,可以用數字,如1234分別對應屬性的SMLXL值。由於序數屬性是有序的,它的中位數是有意義的,因此序數屬性的中心趨勢度量可以是衆數和中位數。

   標稱屬性、二元屬性、序數屬性都是定性的,且都是離散的。

4 數值屬性

   數值屬性用整數或實數值表示,常見的數值屬性如年齡。數值屬性可以是區間標度的或比率標度的。區分區間標度和比率標度屬性的原則是該屬性是否有固有的零點,如攝氏溫度沒有固有的零點,比值沒意義,所以是區間標度屬性,而開式溫度有固有的零點,比值是否有意義,所有是比率標度屬性。數值屬性的平均值是有意義的,如某個城市的平均年齡可以看出這個城市的老齡化情況,因此,數值屬性可以用衆數、中位數、平均值三個中心趨勢度量來統計。

   數值屬性是定量的,可以是離散的也可以是連續的。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章