【數據挖掘】壹 · 數據度量及預處理

目錄

  1. 區間標度變量
  2. 二元變量
  3. 標稱變量
  4. 序數型變量
  5. 比例標度變量
  6. 混合類型變量

1 區間標度變量

區間標度變量是一個粗略線性標度的連續度量,一般有單位描述。

數據規範化
有以下幾種方法:

  • 最小-最大規範化,又稱離散標準化,是對原始數據進行線性變換。這種方法保留了原來數據中存在的關係,是消除量綱和數據取值範圍影響的最簡單方法。
    假設將一組數據xx映射到[a, b][a, ~b]範圍裏:x=xMinMaxMin(ba)+ax^{*}=\frac{x-Min}{Max-Min}·(b-a)+a其中MinMaxMin、Max爲數據xx的最小值和最大值。當a=0b=1a=0,b=1時,將數據映射到區間[0, 1][0,~1]內:x=xMinMaxMinx^{*}=\frac{x-Min}{Max-Min}
  • 小數定標規範化:通過移動屬性的小數點位置規範化屬性範圍,屬性A的規範化計算方法爲:x=x10Tx^{*}=\frac{x}{10^T}其中,T的取值約束爲:max(Zif)<1max(|Z_{if}|)<1的最小整數。
    目的:將屬性值縮到小的特定區間[1,1][-1,1]之間。
  • Z-score規範化(最常用):x=(xμ)/δx^{*}=(x- μ)/δ其中μμ爲均值,δδ爲標準差。

對象間相異度
對象間相異度一般來說是基於距離的度量,常見的距離計算公式有:

  • 歐幾里得距離d12=(x1x2)2+(y1y2)2d_{12}=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2}
  • 曼哈頓距離d12=x1x2+y1y2d_{12}=|x_1-x_2|+|y_1-y_2|
  • 切比雪夫距離d12=max(x1x2, y1y2)d_{12}=max(|x_1-x_2|,~|y_1-y_2|)
  • 漢明距離:相同位上字符不同的個數。(例如:aaaa和bbba之間的距離爲3)

2 二元變量

計算機中一個二元變量有兩種狀態:0或1。一個對象可以包含多個二元變量。
在這裏插入圖片描述

對稱二元變量
對於兩個狀態具有同等價值並且攜帶相同的權重,對稱二元變量的相似度稱爲恆定的相似度。
評估相異度:簡單匹配係數d12=b+ca+b+c+dd_{12}=\frac{b+c}{a+b+c+d}

非對稱二元變量
對於兩個狀態具有不同等價值並或攜帶不同的權重,或者說偏愛某個狀態,非對稱二元變量的相似度稱爲非恆定的相似度。
評估相異度:Jaccard距離
d12=b+ca+b+cd_{12}=\frac{b+c}{a+b+c}

3 標稱變量

標稱變量是二元變量的推廣,它可以具有多於兩個的狀態值。必須:紅、黃、藍、綠。(值之間的排列順序不重要)

4 序數型變量

序數型變量可以使連續的,也可以是離散的。
序數型變量的值之間是有順序關係的,比如:講師、副教授、教授。

5 比例標度變量

總是取正的度量值,有一個非線性的標度,近似的遵循指數標度,比如 AeBt or AeBtAe^{Bt}~or~Ae^{-Bt}
比例標度變量的比值是有意義的。

6 混合類型的變量

現實世界中,數據對象不是被一種類型的度量所描述,而是被多種類型混合的度量所描述。(上面那幾種混合起來)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章