curse of dimensionality維數災難

原創

orisun

2020-02-25 06:25

或者翻譯成維度的咒語，這個咒語出現在很多方面：

sampling採樣

如果數據是低維的，所需的採樣點相對就比較少；如果數據是高維的，所需的採樣點就會指數級增加，而實現中面對高維問題時往往無法獲得如此多的樣本點（即使獲得了也無法處理這麼龐大數據量），樣本少不具有代表性自然不能獲得正確的結果。

combinatorics組合數學

由於每個維度上候選集合是固定的，維度增加後所有組合的總數就會指數級增加。

machine learning機器學習

在機器學習中要求有相當數量的訓練數據含有一些樣本組合。給定固定數量的訓練樣本，其預測能力隨着維度的增加而減小，這就是所謂的Hughes影響或Hughes現象。

data mining數據挖掘

在組織和搜索數據時有賴於檢測對象區域，這些區域中的對象通過相似度屬性而形成分組。然而在高維空間中，所有的數據都很稀疏，從很多角度看都不相似，因而平常使用的數據組織策略變得極其低效。

距離在高維環境下失去意義

在某種意義上，幾乎所有的高維空間都遠離其中心，或者從另一個角度來看，高維單元空間可以說是幾乎完全由超立方體的“邊角”所組成的，沒有“中部”，這對於理解卡方分佈是很重要的直覺理解。

卡方分佈：若N個隨機變量服從標準正態分佈，那麼它們的平方和（注意在計算歐氏距離時就要用到各個變量的平方和）構成的新的變量服從卡方分佈，N是自由度。下面是其概率密度圖：

自由度越大（維度越高）時，圖形越”平闊“。

然而，也由於本徵維度的存在，其概念是指任意低維數據空間可簡單地通過增加空餘（如複製）或隨機維將其轉換至更高維空間中，相反地，許多高維空間中的數據集也可削減至低維空間數據，而不必丟失重要信息。這一點也通過衆多降維方法的有效性反映出來，如應用廣泛的主成分分析方法。針對距離函數和最近鄰搜索，當前的研究也表明除非其中存在太多不相關的維度，帶有維數災難特色的數據集依然可以處理，因爲相關維度實際上可使得許多問題（如聚類分析）變得更加容易。另外，一些如馬爾可夫蒙特卡羅或共享最近鄰搜索方法^[3]經常在其他方法因爲維數過高而處理棘手的數據集上表現得很好。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

curse of dimensionality維數災難

基於網站風格樹SST的網頁噪聲去除

perl中my與local的區別

不要一個人喫飯

棧溢出

不要一個人吃飯

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結