1.二維隨機變量

根據隨機變量的定義我們知道它其實是關於樣本空間的函數，同樣，二維隨機變量也是關於樣本空間的函數。只不過這裏是關於樣本空間的兩個函數。比如樣本空間是某地區全部學齡前兒童，那麼它們的身高和體重就是關於樣本空間的兩個函數(或稱映射)，所以它們也是定義在樣本空間S上的兩個隨機變量。

一般來講，多維的隨機變量都是關於一個樣本空間的。在機器學習中，常用多維隨機變量描述一個事物的多重屬性，然後用統計學知識(如樸素貝葉斯、貝葉斯網絡)解決實際問題(如將事物進行分類)。

(1)離散型的二維隨機變量

取值對(X,Y)的取值是也有限對或可列無限多對。同樣常用分佈律來描述二維離散型隨機變量的分佈。

(2)連續型的二維隨機變量

(X,Y)的取值是無限多且不可列。常用聯合分佈函數和聯合概率密度來描述二維離散型隨機變量的分佈。

2.聯合分佈函數和聯合概率密度函數

我們知道一維隨機變量的分佈函數描述的是該變量X從負無窮到X=x的概率。對於二維隨機變量來說，我們想要將（X，Y）作爲一個整體進行研究，所以產生聯合分佈函數。他其實描述的是在(X，Y)的取值，以及事件在某個取值範圍(矩形範圍)發生的概率。

$F(x,y)=P\{(X \leq x) \cap (Y\leq y)\}=P(X \leq x, Y\leq y)$

$F(x,y)=\int _{-\infty}^{x}\int _{-\infty}^{y}f(u,v)dudv$

f(x,y)就稱爲聯合概率密度函數。f(x,y)雖然不能表示取值X=x,Y=y的概率，但是他能表示點(X,Y)落在小長方形 $(x,x+\bigtriangleup x] * (y,y+\bigtriangleup y]$ 的可能性的高低(跟其他點相比)。特別地，當小長方形的長和寬都是1時，則點落在該長方形的概率就是 $f(x,y)\bigtriangleup x \bigtriangleup y=f(x,y)$

這裏舉一個二維正態分佈的概率密度函數的例子：

如果(X，Y)服從二維正態分佈，那麼它的概率密度函數爲：

$f(x,y)=\frac{1}{2\pi \sigma_1\sigma_2\sqrt{1-\rho^2} }exp\{\frac{-1}{2(1-\rho^2)}[\frac{(x-\mu_1)^2}{\rho_1^2}\\-2\rho \frac{(x-\mu_1)(y-\mu_2)}{\rho _1 \rho _2} +\frac{(y- \mu_2)^2}{\rho_2^2}]\}$

3.邊緣分佈和邊緣概率密度

邊緣分佈其實就是多維隨機變量中的其中一維隨機變量的分佈函數。

$F_X(x)=P\{X\leq x\} = P\{X \leq x,Y<\infty\}=F(x,\infty)$

對於離散型而言

$F_X(x)=F(x,\infty)=\sum _{x_i\leq x}\sum_{j=1}^{\infty}p_{ij}$

對於連續型而言

$F_X(x)=F(x,\infty)=\int _{-\infty}^x[\int _{-\infty}^{\infty}f(x,y)dy]dx$

有了邊緣分佈函數，自然有邊緣概率密度函數，根據定義及上面的式子有：

$f_X(x)=\int _{-\infty}^{\infty}f(x,y)dy$

y的情況也相同。

事實上，我們根據二維正態分佈的概率密度，求出其邊緣概率密度，發現邊緣概率密度正是一維正態分佈的的概率密度。

4.條件分佈

條件分佈是由條件概率而來的。

對於離散型而言，我們用條件分佈律來描述。

對於連續型而言，它的分佈函數就跟我們前面的推理不同。這是爲什麼呢？首先我們的首要任務是估計事件在某個取值附近發生的可能性大小，分佈函數和概率密度函數的定義都是爲估計該可能性大小而服務的。（在這裏可能性大小用於點與點的比較，不代表概率大小）

由於連續型隨機變量的特殊性，我們只能定義任意確定點的概率都是零，才能保證總體概率等於1的事實。所以用了概率密度來描述事件發生在該點的可能性，事實上，可以通過比較兩個點的概率密度大小來比較事件發生在兩個點的可能性大小(注意不是概率大小）。所以我們就定義這樣一個概率密度來衡量。概率密度函數可以人爲挑選，但他必須滿足下面的式子。

對於一維變量：概率密度需要滿足： $\int _{-\infty}^{\infty}f(t)dt=1$

對於二維變量：概率密度需要滿足： $\int _{-\infty}^{\infty}\int _{-\infty}^{\infty}f(u,v)dudv=1$

在我的猜測中，數學家們應該是先定義了概率密度來衡量可能性大小，再引入分佈函數，利用它們的差值求得一定範圍內的概率的。

然後回到條件分佈，我們想要衡量已知事件在Y維度上爲Y=y，求其在X維度上X=x的可能性大小。那我們怎麼去挑選這樣一個概率密度函數呢，但是由於X，Y的概率密度函數以及它們的聯合概率密度都已經確定，我們沒有自己挑選的餘地，只能根據已知量去求。

根據上面我們知道概率密度函數在某個區間的積分就是該區間的概率值，所以我們可以先求出任意區間的條件概率，然後根據概率反求出概率密度函數。

下面假設區間的長寬都是epsilon，那麼區間上的條件概率，也就是已知事件在Y維度上範圍是爲(y,y+epsilon)，其在X維度上範圍是(x,x+epsilon)的概率爲：

$\frac {\int _{x_t}^{x_t+\epsilon}\int _{y_t}^{y_t+\epsilon}f(x,y)dxdy}{\int _{y_t}^{y_t+\epsilon}f_Y(y)dy}$

而由於 $\epsilon$ 極小，所以我們可以將上式轉化爲：

$\frac {\int _{x_t}^{x_t+\epsilon}[\int _{y_t}^{y_t+\epsilon}f(x,y)dy]dx}{\int _{y_t}^{y_t+\epsilon}f_Y(y)dy} =\frac{\epsilon \int _{x_t}^{x_t+\epsilon}f(x,y)dx}{\epsilon f_Y(y)}= \int _{x_t}^{x_t+\epsilon}\frac{f(x,y)}{ f_Y(y)}dx=\frac{f(x,y)}{ f_Y(y)} \epsilon$

回顧一維變量， $\int _{x}^{x+\epsilon}f(t)dt=f(t)\epsilon$ ，是事件發生在X=x附近的小區間的概率， $f(t)\quad or\quad f(x)$ 是概率密度，它可以用來衡量事件發生在X=x點的可能性大小。

根據相同的推理，根據上面式子， $\frac{f(x,y)}{ f_Y(y)}$ 就是條件概率密度，它可以衡量已知事件在Y維度上是y，求其在X維度上範圍是x的可能性大小(注意不是概率大小）。

所以最終條件概率密度 $f_{X|Y}(x|y)=\frac{f(x,y)}{ f_Y(y)}$ 。經過證明它的積分 $\int _{-\infty}^{\infty}\frac{f(x,y)}{ f_Y(y)}dx$ 確實是等於1的。筆者發現這裏的y只能是給定的值，而不是給定的範圍。因爲上面的epsilon之所以能直接抽取出來，正是因爲該範圍無限的小，區間內概率密度相同的假設才能成立。而範圍無限的小，求極限之後就可以視作一個具體的值。