論文筆記1: 【大數據相關分析綜述】;樑吉業,馮晨嬌,宋鵬; 計算機學報/ 2016.1

本文的介紹重點是相關性分析,所謂相關關係,指2個或2個以上變量取值之間在某種意義下所存在的規律,其目的在於探尋數據集裏所隱藏的相關關係網。
目前常見的大數據相關分析主要分爲兩類:
1: 高度複雜的數據關係,比如非線性等複雜關係。
2: 高維數據的分析。

圍繞 非線性,高維 兩個大頭,本文從下面四大類對現有研究成果進行梳理總結:

變量 相關關係
統計相關分析 多變量 線性相關
互信息 兩變量 非線性相關
矩陣計算 高維隨機變量 線性相關
距離 高維變量 非線性相關

1. 統計學中相關分析理論 - 多變量 | 線性相關

1.1 相關性定義

相關關係可以定義爲:“一個變量變化時,另一個變量或多或少也相應地變化”,而測量這種相關關係的統計量則稱爲相關係數.
相關關係有強弱之分,大多數的相關係數是用0代 表 不 相 關,用1代 表 全 相 關.
介 於0~1之間的數,數 值 越 大 相 關 性 越 強,數 值 越 小 相關性越弱.
另外,關係有方向之分,若一個變量增加,另一個變量也增加稱爲正相關,用正數表示同方向;若一個變量增加,另一個變量減少則稱爲負相關,用負數表示反方向.

1.2 兩個變量

1.2.1 兩個定類變量

定類變量: 定類變量即名義變量,是指變量的值是研究對象的名稱或符號.
每個值代表一個類別,這些值之間沒有大小、次序之分,是平等的.如對於性別這個變量而言其取值爲男、女兩類.
列聯表:計算這類變量之間的相關性通常需藉助列聯表.列
假設有兩個特徵 X 和Y,特徵 X 有k 類,用 X(i)表示第i類, i=1,2,…,k;
特徵Y 有l類,用Y(j)表示第j類,j= 1,2,…,l.
由此可以得到一個k行l列的列聯表,見下表.
在這裏插入圖片描述
對於n 個樣本,用 nij 代表既屬於 特 徵 X的第i類又屬於特徵Y 的第j 類的樣本頻數.

  1. Q係數
    在衆多定類變量的相關係數中,Q係數是計算兩個定類變量相關性的最簡單方法,但是Q係數僅適用於2×2列聯表,也就是XY的特徵取值只可以=2。
    在這裏插入圖片描述
    若n12=n21=0,則Q 係數爲1;
    若n11=n22=0,則 Q係數爲-1.
    顯然這兩種情況都表明性別與就業是完全相關的,而正負號在這裏表明了兩個特徵所屬類別中具有相關性的類別的不同.
    比如,在上述例子中Q 係數爲1代表男性易於就業,女性難就業,
    Q 係數爲-1則代表女性易於就業,男性難就業.
  2. λ係數
    λ係數可以計算任意兩個定類變量的相關性,適用於任意維數的列聯表,也就是XY的特徵取值不受限。
    在這裏插入圖片描述
    xi 是第i行的衆數(即頻數的最大值);fyj是 第j列的衆數;Fx是邊際行衆數;Fy是邊際列衆數.取值結果的相關性分析跟Q係數類似。

1.2.2 兩個定序變量

定序變量 即等級變量,變量取值具有序的意義,換言之,其取值有等級或次序之分.如高校教師職稱分爲助教、講師、副教授、教授4個等級。
同序對:如果某對樣本在兩個特徵上的相對等級是一致的,即對於一對樣本(x1,y1)和(x2,y2)而 言,在序上x1優於x2,同 時y1優 於y2,同序對數用 ns 表示;
相反則稱之爲異序對,異序對數用 nd 表示。

  1. γ 係數
    γ 係數是計算兩個定序變量相關性的常用的方法。
    在這裏插入圖片描述
    若nd=0,則γ=1,即對於兩個特徵來說,它們所有樣本對都是同序的,則我們認爲兩個特徵是完全正相關;
    反之,若ns=0,則γ=-1,即對於兩個特徵來說,它們所有樣本對都是異序的,則我們認爲兩個特徵是完全負相關。
  2. 斯皮爾曼(Spearman)相關係數
    在這裏插入圖片描述
    i=x′i-y′i
    x′i,y′i 爲樣本i在兩個特徵下排序後的等級值。

1.2.3 兩個定距變量

定距變量:即數值變量,變量之間具有數量差別,可以進行加減乘除運算。
度量定距變量常用的相關係數是皮爾遜相關係數
在這裏插入圖片描述
在這裏插入圖片描述
幾何解釋如下:
隨機變量XY
當夾角 θ = 0°時,XY兩個變量完全同方向重合,說明XY 正線性相關 ,此時cosθ和r=1。
當夾角 θ = 90°時,XY兩個變量正交,說明XY 無關 ,此時cosθ和r=0。
當夾角 θ = 180°時,說明XY 負線性相關,此時cosθ和r=-1。
當然,皮爾遜相關係數同樣存在不足:(1)當變量不服從正態分佈時,即使是對大樣本而言,r也有相當大的偏差;(2)r的計算易受異常點的影響,且影響較爲顯著。

1.2.4 兩個混合變量

混合變量之間的相關係數通常採用兩種方法計算.一種方法是降級處理,比如定類變量和定序變量之間的相關係數,可以把定序變量降級爲定類變量,應用定類變量之間的相關係數進行計算,當然這必然導致信息損失。
另一種是消減誤差比例 PRE。
PRE
在這裏插入圖片描述
例如變量 X 是定類變量,共有k類,每類的樣本數分別爲n1,n2,…,nk, 且n1+n2+…+nk=n。變量Y 是定距變量。

  • 假如未知X:
    在這裏插入圖片描述
    其中yj代表變量Y 的第j個樣本。
  • 假如已知X:
    若已知X,則可將Y樣本按照X劃爲K類。
    在這裏插入圖片描述
    將E1 和E2代入式(1)即得消減誤差比例PRE。

1.3 多個變量

暫略

2. 互信息 - 兩變量 | 非線性相關

信息熵
在這裏插入圖片描述
在這裏插入圖片描述
信息論認爲,系統越有序,則信息熵越小;相反地,系統越混亂,則信息熵越大.
因此,信息熵可以作爲系統不確定性程度(或者說有序化程度)的度量標準.越不確定信息熵越大。

  • 互信息I(X,Y) =H(X) - H(X|Y) ( 也等 價 於 H(Y) - H(X|Y))
    表示已知Y(/X)的情況下 X(/Y)信息量的變化程度.
    顯然,若變化程度較小則表明Y(X)對 X(Y)的影響較小,也就是說,X與Y相關性弱.反之,說明 X 與Y 相關性強.
    互信息作爲相關分析的度量,其最大優勢在於能有效刻畫變量之間的
    非線性關係
  • MIC:大數據相關分析中,最具影響力的研究成果是 Reshef 等人於2011年發表在《Science》上 的 論 文“Detecting novel associations in large datasets”.
    研究中通過互信息定義了兩個變量之間的最大信息係數(Maximal information cofficient, MIC),用來衡量兩個變量之間的相關性.
    具體原理在此不多作介紹:
    在這裏插入圖片描述
    本文通過大量的實驗說明MIC比經典的皮爾遜相關係數、斯皮爾曼相關係數等方法更細緻地描述了兩個變量之間的相關關係,尤其均等性是任何相關性係數都難以替代的。
    然而,該論文僅針對兩個數值型變量的情況開展了研究.我們試想,由於任意兩類隨機變量、兩組隨機向量之間均可以計算互信息,因而,可以考慮將該方法推廣到任意兩類變量之間和向量之間的相關性的度量。

3. 矩陣計算 - 高維隨機變量 | 線性相關


參考文獻:[ 樑吉業, 馮晨嬌, 宋鵬. 大數據相關分析綜述[J]. 計算機學報, 2016, 000(001):1-18. ]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章