論文筆記1：【大數據相關分析綜述】；樑吉業，馮晨嬌，宋鵬；計算機學報/ 2016.1

本文的介紹重點是相關性分析，所謂相關關係，指２個或２個以上變量取值之間在某種意義下所存在的規律，其目的在於探尋數據集裏所隱藏的相關關係網。
目前常見的大數據相關分析主要分爲兩類：
1：高度複雜的數據關係，比如非線性等複雜關係。
2：高維數據的分析。
圍繞 非線性，高維 兩個大頭，本文從下面四大類對現有研究成果進行梳理總結：

	變量	相關關係
統計相關分析	多變量	線性相關
互信息	兩變量	非線性相關
矩陣計算	高維隨機變量	線性相關
距離	高維變量	非線性相關

1. 統計學中相關分析理論 - 多變量 | 線性相關

1.1 相關性定義

相關關係可以定義爲：“一個變量變化時，另一個變量或多或少也相應地變化”，而測量這種相關關係的統計量則稱爲相關係數．
相關關係有強弱之分，大多數的相關係數是用０代表不相關，用１代表全相關．
介於０～１之間的數，數值越大相關性越強，數值越小相關性越弱．
另外，關係有方向之分，若一個變量增加，另一個變量也增加稱爲正相關，用正數表示同方向；若一個變量增加，另一個變量減少則稱爲負相關，用負數表示反方向．

1.2 兩個變量

1.2.1 兩個定類變量

定類變量：定類變量即名義變量，是指變量的值是研究對象的名稱或符號．
每個值代表一個類別，這些值之間沒有大小、次序之分，是平等的．如對於性別這個變量而言其取值爲男、女兩類．
列聯表：計算這類變量之間的相關性通常需藉助列聯表．列
假設有兩個特徵Ｘ和Ｙ，特徵Ｘ有ｋ類，用Ｘ(ｉ)表示第ｉ類，ｉ＝１，２，…，ｋ；
特徵Ｙ有ｌ類，用Ｙ(ｊ)表示第ｊ類，ｊ＝１，２，…，ｌ．
由此可以得到一個ｋ行ｌ列的列聯表，見下表．

對於ｎ個樣本，用 n_ij 代表既屬於特徵Ｘ的第ｉ類又屬於特徵Ｙ的第ｊ類的樣本頻數．

Q係數
在衆多定類變量的相關係數中，Q係數是計算兩個定類變量相關性的最簡單方法，但是Q係數僅適用於２×２列聯表，也就是XY的特徵取值只可以=2。

若ｎ₁₂＝ｎ₂₁＝０，則Ｑ係數爲１；
若ｎ₁₁＝ｎ₂₂＝０，則Ｑ係數爲－１．
顯然這兩種情況都表明性別與就業是完全相關的，而正負號在這裏表明了兩個特徵所屬類別中具有相關性的類別的不同．
比如，在上述例子中Ｑ係數爲１代表男性易於就業，女性難就業，
Ｑ係數爲－１則代表女性易於就業，男性難就業．
λ係數
λ係數可以計算任意兩個定類變量的相關性，適用於任意維數的列聯表，也就是XY的特徵取值不受限。

ｆ_xi 是第ｉ行的衆數（即頻數的最大值）；ｆ_yj是第ｊ列的衆數；Ｆ_x是邊際行衆數；Ｆ_y是邊際列衆數．取值結果的相關性分析跟Q係數類似。

1.2.2 兩個定序變量

定序變量 即等級變量，變量取值具有序的意義，換言之，其取值有等級或次序之分．如高校教師職稱分爲助教、講師、副教授、教授４個等級。
同序對：如果某對樣本在兩個特徵上的相對等級是一致的，即對於一對樣本（ｘ₁，ｙ₁）和（ｘ₂，ｙ₂）而言，在序上ｘ₁優於ｘ₂，同時ｙ₁優於ｙ₂，同序對數用ｎ_s 表示；
相反則稱之爲異序對，異序對數用ｎ_d 表示。

γ 係數
γ 係數是計算兩個定序變量相關性的常用的方法。

若ｎ_d＝０，則γ＝１，即對於兩個特徵來說，它們所有樣本對都是同序的，則我們認爲兩個特徵是完全正相關；
反之，若ｎ_s＝０，則γ＝－１，即對於兩個特徵來說，它們所有樣本對都是異序的，則我們認爲兩個特徵是完全負相關。
斯皮爾曼（Spearman）相關係數

ｄ_i＝ｘ′_i－ｙ′_i
ｘ′_i，ｙ′_i 爲樣本ｉ在兩個特徵下排序後的等級值。

1.2.3 兩個定距變量

定距變量：即數值變量，變量之間具有數量差別，可以進行加減乘除運算。
度量定距變量常用的相關係數是皮爾遜相關係數：

幾何解釋如下：

當夾角 θ = 0°時，XY兩個變量完全同方向重合，說明XY 正線性相關 ，此時cosθ和r=1。
當夾角 θ = 90°時，XY兩個變量正交，說明XY 無關，此時cosθ和r=0。
當夾角 θ = 180°時，說明XY 負線性相關，此時cosθ和r=-1。
當然，皮爾遜相關係數同樣存在不足：（１）當變量不服從正態分佈時，即使是對大樣本而言，ｒ也有相當大的偏差；（２）ｒ的計算易受異常點的影響，且影響較爲顯著。

1.2.4 兩個混合變量

混合變量之間的相關係數通常採用兩種方法計算．一種方法是降級處理，比如定類變量和定序變量之間的相關係數，可以把定序變量降級爲定類變量，應用定類變量之間的相關係數進行計算，當然這必然導致信息損失。
另一種是消減誤差比例 PRE。
PRE：

例如變量Ｘ是定類變量，共有ｋ類，每類的樣本數分別爲ｎ₁，ｎ₂，…，ｎ_k，且ｎ₁＋ｎ₂＋…＋ｎ_k＝ｎ。變量Ｙ是定距變量。

假如未知X：

其中ｙ_j代表變量Ｙ的第ｊ個樣本。
假如已知X：
若已知Ｘ，則可將Y樣本按照X劃爲K類。

將Ｅ1 和Ｅ2代入式(1)即得消減誤差比例PRE。

1.3 多個變量

暫略

2. 互信息 - 兩變量 | 非線性相關

信息熵：

信息論認爲，系統越有序，則信息熵越小；相反地，系統越混亂，則信息熵越大．
因此，信息熵可以作爲系統不確定性程度（或者說有序化程度）的度量標準．越不確定信息熵越大。

互信息Ｉ(X,Y) =Ｈ(X) - H(X|Y) （也等價於Ｈ(Y) - H(X|Y）)
表示已知Ｙ(/Ｘ)的情況下Ｘ(/Ｙ)信息量的變化程度．
顯然，若變化程度較小則表明Ｙ(Ｘ)對Ｘ(Ｙ)的影響較小，也就是說，X與Ｙ相關性弱．反之，說明Ｘ與Ｙ相關性強．
互信息作爲相關分析的度量，其最大優勢在於能有效刻畫變量之間的非線性關係．
MIC：大數據相關分析中，最具影響力的研究成果是 Reshef 等人於2011年發表在《Science》上的論文“Detecting novel associations in large datasets”．
研究中通過互信息定義了兩個變量之間的最大信息係數(Maximal information cofficient, MIC),用來衡量兩個變量之間的相關性．
具體原理在此不多作介紹：

本文通過大量的實驗說明MIC比經典的皮爾遜相關係數、斯皮爾曼相關係數等方法更細緻地描述了兩個變量之間的相關關係，尤其均等性是任何相關性係數都難以替代的。
然而，該論文僅針對兩個數值型變量的情況開展了研究．我們試想，由於任意兩類隨機變量、兩組隨機向量之間均可以計算互信息，因而，可以考慮將該方法推廣到任意兩類變量之間和向量之間的相關性的度量。

3. 矩陣計算 - 高維隨機變量 | 線性相關

參考文獻：[ 樑吉業, 馮晨嬌, 宋鵬. 大數據相關分析綜述[J]. 計算機學報, 2016, 000(001):1-18. ]

論文筆記1：【大數據相關分析綜述】；樑吉業，馮晨嬌，宋鵬；計算機學報/ 2016.1

1. 統計學中相關分析理論 - 多變量 | 線性相關

1.1 相關性定義

1.2 兩個變量

1.2.1 兩個定類變量

1.2.2 兩個定序變量

1.2.3 兩個定距變量

1.2.4 兩個混合變量

1.3 多個變量

2. 互信息 - 兩變量 | 非線性相關

3. 矩陣計算 - 高維隨機變量 | 線性相關

小甲魚零基礎學習python_13 【遞歸實現：遞歸和斐波那契兔崽們的漢諾塔之謎】

小甲魚零基礎學習python_12 【你的lambda】

小甲魚零基礎學習python_11 【變量&&閉包&&內嵌函數】

華爲ICLR2020，neurlIPS2019 的 github代碼地址

論文筆記1：【大數據相關分析綜述】；樑吉業，馮晨嬌，宋鵬；計算機學報/ 2016.1

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

論文筆記1： 【大數據相關分析綜述】；樑吉業，馮晨嬌，宋鵬； 計算機學報/ 2016.1

1. 統計學中相關分析理論 - 多變量 | 線性相關

1.1 相關性定義

1.2 兩個變量

1.2.1 兩個定類變量

1.2.2 兩個定序變量

1.2.3 兩個定距變量

1.2.4 兩個混合變量

1.3 多個變量

2. 互信息 - 兩變量 | 非線性相關

3. 矩陣計算 - 高維隨機變量 | 線性相關

論文筆記1：【大數據相關分析綜述】；樑吉業，馮晨嬌，宋鵬；計算機學報/ 2016.1