機器學習探索性數據分析的數據類型(補充)

探索性數據分析(Exploratory Data Analysis, EDA )

EDA是指對已有的數據(特別是調查或觀察得來的原始數據)在儘量少的先驗假定下進行探索,通過作圖、製表、方程擬合、計算特徵量等手段探索數據的結構和規律的一種數據分析方法。特別是當我們對這些數據中的信息沒有足夠的經驗,不知道該用何種傳統統計方法進行分析時,探索性數據分析就會非常有效。

離散屬性:

若屬性值間存在“序”(order)關係,可通過連續化將其轉化爲連續值。例如:
- 二值屬性“身高”的取值“高”、“矮”可轉化爲{1.0, 0.0}
- 三值屬性“高度”的取值“高”、“中”、“低”可轉化爲{1.0, 0.5, 0.0};

若屬性間不存在序關係,假定有K個屬性值,通常轉化爲k維向量,例如:
- 屬性“瓜類”的取值“西瓜”、“南瓜”、“冬瓜”可轉化爲(0,0,1), (0,1,0), (1,0,0)

注意: 將無序屬性連續化則會不恰當地引入序關係,對後續處理如距離計算等造成誤導。

在討論距離計算時,屬性上是否定義了序關係很重要,有序的離散屬性跟連續屬性性質更接近一些,能夠直接在屬性值上計算距離:如{1,2,3},“1”與“2”比較接近,與“3”比較遠。定義域爲{飛機,火車,輪船}這樣的無序離散屬性則不能直接在屬性值上計算距離。

周志華 《機器學習》

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章