概率論與統計:條件期望與最小二乘法

文章嚮導

條件期望
最小二乘法
探索平方誤差的期望值內涵

一、條件期望

  條件期望在概率論與統計中也被稱爲條件數學期望,它的用途主要是用於實際的預測性問題。如對於兩個互有影響的隨機變量,如果我們知道其中一個隨機變量X=a這一觀測值,要據此去估計或預測隨機變量Y的取值。
  首先,想到的自然是選擇條件概率P(Y=b|X=a)值最大時的b作爲答案,如果需要儘可能地提高估計的精度,那麼此方法無疑是很合理的。
  另一種做法做法則是求在X=a時Y的條件分佈,並計算出相應的期望值,即:

E(Y|X=a)bbP(Y=b|X=a)  11

  上式也就是條件期望的定義式。但需要注意到,對於取值不同的X,其條件期望E(Y|X=a)的值也不同。所以,如果能知道X各種取值出現的概率,那麼條件期望的最終計算結果則與一般的期望值E(Y)一致,即:

E(Y)=aE(Y|X=a)P(X=a)  12

  現在來詳細證明式(1-2)是如何得出的,先將式(1-1)代入進行推導。

這裏寫圖片描述


二、最小二乘法

1.實例推導

  接下來這部分,則是與條件期望相關的一個應用實例。我們先思考如下問題,假設有條件分佈P(Y=b|X=a) ,試設計一個程序,如何使得在輸入X之後輸出Y的估計值Y^ 。並使平方誤差(YY^)2 的期望值E[(YY^)2] 儘可能小。
  乍一看問題貌似很複雜,實際上要求的就是輸入X後輸出Y的估計值函數中,使E[(YY^)2] 的值最小時所對應的那個Y^=g(X)=E(Y|X=x) 。再具體一點,其實問題的答案就是之前所談及的條件期望g(a)=E(Y|X=a)。這點也符合人們的直觀理解,估計值Y^ 與Y十分接近時,平方誤差自然小。
  爲了簡化問題的分析,可將X的取值範圍給固定爲{1,2,3},此時平方誤差的期望值如下所示。
這裏寫圖片描述
  上圖中最後一行等式可分爲3個部分,取決於g(1)的量+即取決於g(2)的量+即取決於g(3)的量。那麼,現在的問題就轉化爲求各部分的解,然後則能得出最佳的g。即定義g(1),使b(bg(1))2P(X=1,Y=b) 有最小值,同理g(2)和g(3)類似。
  接着,根據上述的思路來找出這樣的g(1),爲表示方便用g1 替代g(1)。
這裏寫圖片描述
  求該式的最小值等價於求h1(g1)=b(bg1)2P(Y=b|X=1) 的最小值。好,馬上就要成功了,讓我們來計算它的微分。
這裏寫圖片描述
  由極值的判定關係可知,當dh1/dg1=0 時,即g1=E(Y|X=1) 時,h1(g1) 能取到最小值,h2(g2)h3(g3) 同理可得。最後,從而推得g(a)=E(Y|X=a) 的結論。


2.如何理解所求得的g(a)?

  從g(a)=E(Y|X=a) 形式上來看,它就是一個普通的函數。只要提供一個具體的數值a,它就會返回一個確定的值g(a)。那麼,如果給g提供一個隨機變量X,就能得到一個與X對應的隨機變量Y^=g(X)=E(Y|X=x) 。好吧,表達式看起來依然是那麼的抽象。
這裏寫圖片描述
  不妨看看圖2-1,X=1,2,3分別對應着前面所提及的三個部分,可以把這三個部分想象爲各自獨立的平行世界,每個平行世界的Y值(柱狀體的高)不盡相同(Dir2方向觀察),且同一平行世界下的Y值也不等(Dir1方向觀察)。可能有些讀者會迷惑,爲啥同一平行世界下的Y值也不相同,那麼請思考下條件分佈P(Y|X=1)。
這裏寫圖片描述
  接着看圖2-2,此時柱狀體的高爲E(Y|X)的值,而且有趣的是同一平行世界下的高現在是相等的。這點很好理解,因爲求的是期望,那麼最終結果肯定是將同一X區域下的不同高度給統一起來(也就是平均效果)。若是將三個平行世界的結果再繼續綜合起來,則最終得到E(Y)。
  


三、探索平方誤差的期望值內涵

1. 從偏差的平方到方差

  談及平方誤差,讀者的第一反應或許會是方差。那麼,讓我們先從方差開始談起。設隨機變量X的數學期望E(X)=μ ,現在我們需要計算它的實際取值xμ 的差距。|xμ| 可能是最爲直觀的方式,但落實到具體的計算時,絕對值的存在往往會帶來許多不便(如分類討論、曲線折角處不可微等)。於是,人們通常用偏差的平方(xμ)2 來描述問題。
  這樣的描述也非常符合離散程度的定義,因爲僅當X=μ 時,誤差爲0,其餘情況誤差總是存在且大於0。目前離方差的定義V[X]=E[(Xμ)2] 很接近了,但還差一個取期望。Ok,思考下爲何還要取一個期望才能得到方差?首先,(Xμ)2 得到的是一個隨機值,而我們希望得到的是一種數值固定的指標,固取其期望來消除其中的隨機性。

2.平方誤差的期望值

  正式往下說之前,讀者應該現瞭解這個公式V[X]=E(X2)E(X)2
  試證:對於常量a,當E(X)=μV(X)=σ2 時,有等式E[(Xa)2]=(μa)2+σ2 成立。
這裏寫圖片描述
  證明完畢,現在來說道說道如何理解這個等式。假設某工廠要生產尺寸恰好爲a cm的零件,而最終實際產品的尺寸爲X cm。那麼,現在(Xa)2 就爲平方誤差。與上述證明的等式相比較,可發現該誤差被分解爲如下兩種誤差:(期望值的平方誤差)+方差 =(由偏移引起的誤差)+(由離散引起的誤差)。
  更爲專業的說法則是,系統誤差(又稱偏性誤差,數值整體偏移)與隨機誤差(又稱機會誤差,數值離散)。
  那麼,由於生產工藝的不同,最終得到的產品在兩種誤差上的表現也會不同。如系統誤差較小,隨機誤差較大。雖然看似誤差較小,但其實數值X較爲離散。

參閱資料
程序員的數學<概率統計>
概率論與數理統計<浙大版>

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章