2. 數據對象和屬性類型

數據對象和屬性類型

數據集由數據對象組成。一個數據對象代表一個實體。通常,數據對象用屬性描述。數據對象又稱樣本實例數據點對象

什麼是屬性

屬性(attribute)是一個數據字段,表示數據對象的一個特徵。

一個屬性的類型由該屬性可能具有的值得集合決定。

屬性可以是標稱的、二元的、序數的或數據值。

標稱屬性

標稱意味與“名稱”有關。
標稱屬性(nominal attribute)的值是一些符號或事物的名稱。
每個值代表某種類別、編碼或狀態,因此標稱屬性又被看做是分類的(categorical)。這些值不必具有有意義的序。在計算機科學中,這些值也被看做是枚舉的(enumeration)。

比如,頭髮的顏色,可能值爲黑色、褐色、淡黃色、紅色、赤褐色、灰色和白色。

在標稱屬性上,數學運算沒有意義。

標稱屬性是定性數據,不能進行定量的計算。但可以使用衆數(mode)進行中心趨勢度量。

二元屬性

二元屬性(binary attribute)是一種標稱屬性,只有兩個類別或狀態:0和1,其中0通常表示該屬性不出現,而1表示出現。二元屬性又稱布爾屬性,如果兩種狀態對應於true和false的話。

一個二元屬性是對稱的,如果它的兩種狀態具有相同價值並且攜帶相同的權重;即,關於哪個結果應該用0或1編碼並無偏好。比如性別。

一個二元屬性是非對稱的,如果其狀態的結果不是同樣重要的,比如艾滋病毒化驗的陽性和陰性結果。

序數屬性

序數屬性(ordinal attribute)是一種屬性,其可能的值之間具有有意義的序或秩評定(ranking),但是相繼值之間的差是未知的。

比如,成績有A+, A, A-, B+, B等。

對於記錄不能客觀度量的主觀質量評估,序數屬性是有用的。因此,序數屬性常用於等級評定調查。

序數屬性的中心趨勢可以用衆數和中位數表示,但不能定義均值。

標稱屬性、二元屬性都是定性的。

數值屬性

數值屬性(numeric attribute)是定量的,即它是可度量的量,用整數或實數值表示。
數值屬性可分爲區間標度比率標度的。

區間標度屬性

區間標度(interval-scaled)屬性用相等的單位尺度度量。區間屬性的值有序,可以比較和定量評估值之間的差。

比如,溫度(攝氏度和華氏度)屬性是區間標度的,但不能說一個溫度值是另一個的倍數,例如,不能說10攝氏度比5攝氏度溫暖2倍。

比如,日期。

比率標度屬性

比率標度(ratio-scaled)屬性是具有固有零點的數值屬性。如果度量是比率標度的,可以說一個值是另一個的倍數(比率)。

比如,開氏溫標(K)具有絕對零點;重量、高度、速度等。

離散屬性與連續屬性

離散和連續是按照另一種維度來劃分屬性,跟上面的劃分標準不同。

離散屬性具有有限或無限可數個值,可以用或不用整數表示。

如果屬性不是離散的,則它是連續的。

Reference

  1. 數據挖掘概念與技術
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章