概率論與統計：條件期望與最小二乘法

文章嚮導

條件期望
最小二乘法
探索平方誤差的期望值內涵

一、條件期望

　　條件期望在概率論與統計中也被稱爲條件數學期望，它的用途主要是用於實際的預測性問題。如對於兩個互有影響的隨機變量，如果我們知道其中一個隨機變量X=a這一觀測值，要據此去估計或預測隨機變量Y的取值。
　　首先，想到的自然是選擇條件概率P(Y=b|X=a)值最大時的b作爲答案，如果需要儘可能地提高估計的精度，那麼此方法無疑是很合理的。
　　另一種做法做法則是求在X=a時Y的條件分佈，並計算出相應的期望值，即：

E (Y | X = a) \equiv \sum_{b} b P (Y = b | X = a) （ 1 - 1 ）

　　上式也就是條件期望的定義式。但需要注意到，對於取值不同的X，其條件期望E(Y|X=a)的值也不同。所以，如果能知道X各種取值出現的概率，那麼條件期望的最終計算結果則與一般的期望值E(Y)一致，即：

E (Y) = \sum_{a} E (Y | X = a) P (X = a) （ 1 - 2 ）

　　現在來詳細證明式(1-2)是如何得出的，先將式(1-1)代入進行推導。

二、最小二乘法

1.實例推導

　　接下來這部分，則是與條件期望相關的一個應用實例。我們先思考如下問題，假設有條件分佈 $P (Y = b | X = a)$ ，試設計一個程序，如何使得在輸入X之後輸出Y的估計值 $\hat{Y}$ 。並使平方誤差 ${(Y - \hat{Y})}^{2}$ 的期望值 $E [{(Y - \hat{Y})}^{2}]$ 儘可能小。
　　乍一看問題貌似很複雜，實際上要求的就是輸入X後輸出Y的估計值函數中，使 $E [{(Y - \hat{Y})}^{2}]$ 的值最小時所對應的那個 $\hat{Y} = g (X) = E (Y | X = x)$ 。再具體一點，其實問題的答案就是之前所談及的條件期望g(a)=E(Y|X=a)。這點也符合人們的直觀理解，估計值 $\hat{Y}$ 與Y十分接近時，平方誤差自然小。
　　爲了簡化問題的分析，可將X的取值範圍給固定爲{1,2,3}，此時平方誤差的期望值如下所示。

　　上圖中最後一行等式可分爲3個部分，取決於g(1)的量+即取決於g(2)的量+即取決於g(3)的量。那麼，現在的問題就轉化爲求各部分的解，然後則能得出最佳的g。即定義g(1)，使 $\sum_{b} {(b - g (1))}^{2} P (X = 1, Y = b)$ 有最小值，同理g(2)和g(3)類似。
　　接着，根據上述的思路來找出這樣的g(1)，爲表示方便用 $g_{1}$ 替代g(1)。

　　求該式的最小值等價於求 $h_{1} (g_{1}) = \sum_{b} {(b - g_{1})}^{2} P (Y = b | X = 1)$ 的最小值。好，馬上就要成功了，讓我們來計算它的微分。

　　由極值的判定關係可知，當 $d h_{1} / d g_{1} = 0$ 時，即 $g_{1} = E (Y | X = 1)$ 時， $h_{1} (g_{1})$ 能取到最小值， $h_{2} (g_{2})$ 、 $h_{3} (g_{3})$ 同理可得。最後，從而推得 $g (a) = E (Y | X = a)$ 的結論。

2.如何理解所求得的g(a)？

　　從 $g (a) = E (Y | X = a)$ 形式上來看，它就是一個普通的函數。只要提供一個具體的數值a，它就會返回一個確定的值g(a)。那麼，如果給g提供一個隨機變量X，就能得到一個與X對應的隨機變量 $\hat{Y} = g (X) = E (Y | X = x)$ 。好吧，表達式看起來依然是那麼的抽象。

　　不妨看看圖2-1，X=1,2,3分別對應着前面所提及的三個部分，可以把這三個部分想象爲各自獨立的平行世界，每個平行世界的Y值(柱狀體的高)不盡相同(Dir2方向觀察)，且同一平行世界下的Y值也不等(Dir1方向觀察)。可能有些讀者會迷惑，爲啥同一平行世界下的Y值也不相同，那麼請思考下條件分佈P(Y|X=1)。

　　接着看圖2-2，此時柱狀體的高爲E(Y|X)的值，而且有趣的是同一平行世界下的高現在是相等的。這點很好理解，因爲求的是期望，那麼最終結果肯定是將同一X區域下的不同高度給統一起來(也就是平均效果)。若是將三個平行世界的結果再繼續綜合起來，則最終得到E(Y)。
　　

三、探索平方誤差的期望值內涵

1. 從偏差的平方到方差

　　談及平方誤差，讀者的第一反應或許會是方差。那麼，讓我們先從方差開始談起。設隨機變量X的數學期望 $E (X) = μ$ ，現在我們需要計算它的實際取值 $x 与 μ$ 的差距。 $| x - μ |$ 可能是最爲直觀的方式，但落實到具體的計算時，絕對值的存在往往會帶來許多不便(如分類討論、曲線折角處不可微等)。於是，人們通常用偏差的平方 ${(x - μ)}^{2}$ 來描述問題。
　　這樣的描述也非常符合離散程度的定義，因爲僅當 $X = μ$ 時，誤差爲0，其餘情況誤差總是存在且大於0。目前離方差的定義 $V [X] = E [{(X - μ)}^{2}]$ 很接近了，但還差一個取期望。Ok，思考下爲何還要取一個期望才能得到方差？首先， ${(X - μ)}^{2}$ 得到的是一個隨機值，而我們希望得到的是一種數值固定的指標，固取其期望來消除其中的隨機性。

2.平方誤差的期望值

　　正式往下說之前，讀者應該現瞭解這個公式 $V [X] = E (X^{2}) - E {(X)}^{2}$ 。
　試證：對於常量a，當 $E (X) = μ ， V (X) = σ^{2}$ 時，有等式 $E [{(X - a)}^{2}] = {(μ - a)}^{2} + σ^{2}$ 成立。

　　證明完畢，現在來說道說道如何理解這個等式。假設某工廠要生產尺寸恰好爲a cm的零件，而最終實際產品的尺寸爲X cm。那麼，現在 ${(X - a)}^{2}$ 就爲平方誤差。與上述證明的等式相比較，可發現該誤差被分解爲如下兩種誤差：(期望值的平方誤差)+方差 =（由偏移引起的誤差）+（由離散引起的誤差）。
　　更爲專業的說法則是，系統誤差(又稱偏性誤差，數值整體偏移)與隨機誤差(又稱機會誤差，數值離散)。
　　那麼，由於生產工藝的不同，最終得到的產品在兩種誤差上的表現也會不同。如系統誤差較小，隨機誤差較大。雖然看似誤差較小，但其實數值X較爲離散。

參閱資料
程序員的數學<概率統計>
概率論與數理統計<浙大版>

概率論與統計：條件期望與最小二乘法

算法修行第一彈：一切從觀察開始——趣題探索

由淺至深->C語言中位運算的相關問題

構造數組與基本排序問題

矩陣妙法—從基礎運算到進階使用

基本算法思想之窮舉算法思想

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結