目錄
- 區間標度變量
- 二元變量
- 標稱變量
- 序數型變量
- 比例標度變量
- 混合類型變量
1 區間標度變量
區間標度變量是一個粗略線性標度的連續度量,一般有單位描述。
數據規範化
有以下幾種方法:
- 最小-最大規範化,又稱離散標準化,是對原始數據進行線性變換。這種方法保留了原來數據中存在的關係,是消除量綱和數據取值範圍影響的最簡單方法。
假設將一組數據映射到範圍裏:其中爲數據的最小值和最大值。當時,將數據映射到區間內: - 小數定標規範化:通過移動屬性的小數點位置規範化屬性範圍,屬性A的規範化計算方法爲:其中,T的取值約束爲:的最小整數。
目的:將屬性值縮到小的特定區間之間。 - Z-score規範化(最常用):其中爲均值,爲標準差。
對象間相異度
對象間相異度一般來說是基於距離的度量,常見的距離計算公式有:
- 歐幾里得距離:
- 曼哈頓距離:
- 切比雪夫距離:
- 漢明距離:相同位上字符不同的個數。(例如:aaaa和bbba之間的距離爲3)
2 二元變量
計算機中一個二元變量有兩種狀態:0或1。一個對象可以包含多個二元變量。
對稱二元變量
對於兩個狀態具有同等價值並且攜帶相同的權重,對稱二元變量的相似度稱爲恆定的相似度。
評估相異度:簡單匹配係數:
非對稱二元變量
對於兩個狀態具有不同等價值並或攜帶不同的權重,或者說偏愛某個狀態,非對稱二元變量的相似度稱爲非恆定的相似度。
評估相異度:Jaccard距離:
3 標稱變量
標稱變量是二元變量的推廣,它可以具有多於兩個的狀態值。必須:紅、黃、藍、綠。(值之間的排列順序不重要)
4 序數型變量
序數型變量可以使連續的,也可以是離散的。
序數型變量的值之間是有順序關係的,比如:講師、副教授、教授。
5 比例標度變量
總是取正的度量值,有一個非線性的標度,近似的遵循指數標度,比如 。
比例標度變量的比值是有意義的。
6 混合類型的變量
現實世界中,數據對象不是被一種類型的度量所描述,而是被多種類型混合的度量所描述。(上面那幾種混合起來)