高維數據的分析

隨着科學技術的發展,人們在實際應用過程中經常會碰到各種類型的海量數據,如證券市場交易數據、多媒體圖形圖像視頻數據、航天航空採集數據、生物特徵數據等,這些數據在統計處理中通常稱爲高維數據。

在分析高維數據過程中碰到最大的問題就是維數的膨脹,也就是通常所說的“維數災難”問題。研究表明,當維數越來越多時,分析和處理多維數據的複雜度和成本成指數級增長。在分析高維數據時,所需的空間樣本數會隨維數的增加而呈指數增長。傳統的多元統計分析方法在處理實際數據時會碰到數據不符合正態分佈或對數據沒有多少先驗信息的情況,所以,處理時只能用非參數的方法去解決。處理這類問題的非參數方法主要依賴大樣本理論,但高維數據在空間中通常是非常稀疏的,與空間的維數相比樣本量總是顯得非常少,因此,大樣本理論處理高維數據不適用。另外,許多經典的低維數據處理方法,如迴歸分析、主成分分析、聚類算法中的劃分方法和層次方法等,在處理高維數據時存在着難以解決的困難,例如,維數的增加會導致數據的計算量迅速上升;高維導致空間的樣本數變少,使得某些統計上的漸近性難以實現;傳統的數據處理方法在處理高維數據時不能滿足穩健性要求等。上述問題給高維數據處理中的模式識別帶來了極大的困難,同樣,這種維數的膨脹,給數學和數據分析帶來了重大的挑戰。



轉自:點擊打開鏈接  Live_on_the_Horizion


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章