統計推斷(二) Estimation Problem

1. Bayesian parameter estimation

  • Formulation

    • Prior distribution px()p_{\mathsf{x}}(\cdot)
    • Observation pyx()p_{\mathsf{y|x}}(\cdot|\cdot)
    • Cost C(a,a^)C(a,\hat a)
  • Solution

    • x^()=argminf()E[C(x,f(y))]\hat x(\cdot) = \arg\min_{f(\cdot)} \mathbb E[C(x,f(y))]
    • x^(y)=argminaXC(x,a)pxy(xy)dx\hat{\mathbf{x}}(\mathbf{y})=\underset{\mathbf{a}}{\arg \min } \int_{\mathcal{X}} C(\mathbf{x}, \mathbf{a}) p_{\mathbf{x} | \mathbf{y}}(\mathbf{x} | \mathbf{y}) \mathrm{d} \mathbf{x}
  • Specific case

    • MAE(Minimum absolute-error)

      • C(a,a^)=aa^C(a,\hat a)=|a-\hat a|
      • x^\hat x is the median of the belief pxy(xy)p_{\mathsf{x|y}}(x|y)
    • MAP(Maximum a posteriori)

      • C(a,a^)={1,aa^>ε0,otherwiseC(a,\hat a) = \left\{ \begin{array}{ll}{1,} & {|a-\hat a|>\varepsilon} \\ {0,} & {otherwise}\end{array}\right.
      • x^MAP(y)=argmaxapxy(ay)\hat x_{MAP}(y) = \arg \max_a p_{\mathsf{x|y}}(a|y)
    • BLS(Bayes’ least-squares)

      • C(a,a^)=aa^2C(a,\hat a)=||a-\hat a||^2

      • x^BLS(y)=E[xy]\hat x_{BLS}(y) = \mathbb E [\mathsf{x|y}]

      • proposition

        • unbiased: b=E[e(x,y)]=E[x^(y)x]=0b = \mathbb E[\mathsf{e(x,y)}]=E[\mathsf{\hat x(y)-x}]=0

        • 誤差的協方差矩陣就是 belief(後驗分佈?)的協方差陣的期望
          ΛBLS=E[Λxy(y)] \Lambda_{BLS}=\mathbb E[\mathsf{\Lambda_{x|y}(y)}]

  • Orthogonality
    x^() is BLS    E[[x^(y)x]gT(y)]=0 \hat x(\cdot)\ is\ BLS \iff \mathbb E\left[ \mathsf{[\hat x(y)-x]g^T(y)}\right]=0

    Proof: omit

2. Linear least-square estimation

  • Drawback of BLS x^BLS(y)=E[xy]\hat x_{BLS}(y)=E[x|y]

    • requires posterior p(xy)p(x|y), which needs p(x)p(x) and p(yx)p(y|x)
    • calculating posterior is complicated
    • estimator is nonlinear
  • Definition of LLS

    • x^LLS(y)=argminf()BE[xf(y)2]B={f():f(y)=Ay+d}\hat {\mathbf{x}}_{LLS}(y) = \arg \min\limits_{f(\cdot) \in \mathcal{B}} E\left[||\mathsf{x-f(y)}||^2\right] \\ \mathcal{B}=\{f(\cdot):f(y)=Ay+d\}
    • 注意 x^(y)\hat {\mathbf{x}}(\mathsf{y}) 是一個隨機變量,是關於 y\mathsf{y} 的一個函數
    • LLS 與 BLS 都是假設 x 爲一個隨機變量,有先驗分佈,不同之處在於 LLS 要求估計函數爲關於觀測值 y 的線性函數,因此 LLS 只需要知道二階矩,而 BLS 需要知道後驗均值
  • Property

    • Orthogonality
      x^() is LLS    E[x^(y)x]=0  and  E[(x^(y)x)yT]=0 \hat {\mathbf{x}}(\cdot)\ is\ LLS \iff E[\hat {\mathbf{x}}(\mathsf{y})-\mathsf{x}]=0\ \ and\ \ E[(\hat {\mathbf{x}}(\mathsf{y})-\mathsf{x})\mathsf{y}^T]=0

    • 推論:由正交性可得到

      • x^LLS(y)=μX+ΛxyΛy1(yμy)\hat x_{LLS}(y)=\mu_X+\Lambda_{xy}\Lambda_y^{-1}(y-\mu_y)
      • ΛLLSE[(xx^LLS(y))(xx^LLS(y))T]=ΛxΛxyΛy1ΛxyT\Lambda_{\mathrm{LLS}} \triangleq \mathbb{E}\left[\left(\mathbf{x}-\hat{\mathbf{x}}_{\mathrm{LLS}}(\mathbf{y})\right)\left(\mathbf{x}-\hat{\mathbf{x}}_{\mathrm{LLS}}(\mathbf{y})\right)^{\mathrm{T}}\right]=\Lambda_{\mathrm{x}}-\Lambda_{\mathrm{xy}} \Lambda_{\mathrm{y}}^{-1} \Lambda_{\mathrm{xy}}^{\mathrm{T}}

    Proof: x 可以是向量

    \Longrightarrow:反證法

    1. suppose E[x^LLS(y)x]=b0E[\hat x_{LLS}(y)-x]=\mathbb{b} \ne 0,take x^=x^LLSb\hat x'=\hat x_{LLS} - b
      then E[x^x2]=E[x^x2]b2<E[x^x2]E\left[||\hat x' - x||^2\right]=E\left[||\hat x - x||^2\right]-b^2 < E\left[||\hat x - x||^2\right]
      與 LLS 的定義矛盾;
    2. e=x^(y)xe=\hat x(y)-x
      Take x^=x^LLSΛeyΛy1(yμy)\hat x' = \hat x_{LLS} - \Lambda_{ey}\Lambda_y^{-1}(y-\mu_y)

    KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ M &= E\left[(\…

    由於 E[xf(y)2]=tr{M}E\left[||\mathsf{x-f(y)}||^2\right] = tr\{M\},LLS 的 MSE 應當最小
    由於 Λy\Lambda_y 正定,因此應有 ΛeyΛy1ΛeyT=0\Lambda_{ey}\Lambda_y^{-1}\Lambda_{ey}^T=0
    E[(x^μx)(yμy)T]=0E[(x^(y)x)yT]=0E\left[(\hat x-\mu_x)(y-\mu_y)^T \right]=0 \Longrightarrow E[(\hat {\mathbf{x}}(\mathsf{y})-\mathsf{x})\mathsf{y}^T]=0

    \Longleftarrow:suppose another linear estimator x^\hat x'
    KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ E\left[(\hat x…
    第三個等號是由於 x^x^=Ay+d\hat x'-\hat x = A'y+d'

    同樣的根據上面 MSE=tr{M}MSE=tr\{M\} 可得到 x^\hat x 有最小的 MSE

  • 聯合高斯分佈的情況

    • 定理:如果 x 和 y 是聯合高斯分佈的,那麼
      x^BLS(y)=x^LLS(y) \hat x_{BLS}(y) = \hat x_{LLS}(y)

    證明:eLLS=x^LLSxe_{LLS}=\hat x_{LLS}-x 也是高斯分佈

    由於 E[eLLS yT]=0E[e_{LLS}\ y^T]=0,故 eLLSe_{LLS} 與 y 相互獨立

    E[eLLSy]=E[eLLS]=0E[x^LLSy]=x^LLS=E[xy]E[e_{LLS}|y]=E[e_{LLS}]=0 \to E[\hat x_{LLS}|y]=\hat x_{LLS} = E[x|y]

    • 通常如果只有聯合二階矩信息,那麼 LLS 是 minmax

3. Non-Bayesian formulation

  • Formulation

    • observation: distribution of y parameterized by x, py(y;x)p_\mathsf{y}(\mathbf{y;x})
      not conditioned on x, pyx(yx)p_\mathsf{y|x}(\mathbf{y|x})
      此時 x 不再是一個隨機變量,而是未知的一個參數
    • bias: b(x)=E[x^(y)x]b(x)=E[\hat x(y)-\mathbf{x}]
    • 誤差協方差矩陣 Λe(x)=E[(e(x,y)b(x))(e(x,y)b(x))T]\Lambda_{\mathrm{e}}(\mathrm{x})=\mathbb{E}\left[(\mathrm{e}(\mathrm{x}, \mathrm{y})-\mathrm{b}(\mathrm{x}))(\mathrm{e}(\mathrm{x}, \mathrm{y})-\mathrm{b}(\mathrm{x}))^{\mathrm{T}}\right]
  • **有效(valid)**估計器不應當顯式地依賴於 x

  • MVU: Minimum-variance unbiased estimator

    • 在 MMSE 條件下最優估計就是 MVU 估計
      KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ MSE &= E[e^2]=…
  • MVU 可能不存在

    • 可能不存在無偏估計,即 A=\mathcal{A}=\varnothing
    • 存在無偏估計 A\mathcal{A} \ne \varnothing,但是不存在某個估計量在所有情況(任意 x)下都是最小方差

4. CRB

定理:滿足正規條件時
E[xlnpy(y;x)]=0    for all  x \mathbb{E}\left[\frac{\partial}{\partial x} \ln p_{y}(\mathbf{y} ; x) \right] = 0 \ \ \ \ for \ all \ \ x

λx^(X)1Jy(x) \lambda_{\hat x}(X) \ge \frac{1}{J_y(x)}
其中 Fisher 信息爲
Jy(x)=E[(xlnpy(y;x))2]=E[2x2lnpy(y;x)] J_{y}(x)=\mathbb{E}\left[\left(\frac{\partial}{\partial x} \ln p_{y}(\mathbf{y} ; x)\right)^{2}\right]=-\mathbb{E}\left[\frac{\partial^{2}}{\partial x^{2}} \ln p_{y}(\mathbf{y} ; x)\right]
證明:取 f(y)=xlnpy(y;x)f(y)=\frac{\partial}{\partial x} \ln p_{y}(\mathbf{y} ; x),有 E[f(y)]=0E[f(y)]=0
cov(e(y),f(y))=(x^(y)x)xpy(y;x)dy=1 cov(e(y),f(y))=\int (\hat x(y)-x)\frac{\partial}{\partial x} p_{y}(\mathbf{y} ; x)dy=1

1=cov(e,f)Var(e)Var(f) 1=cov(e,f)\le Var(e)Var(f)

備註

  • 正規條件不滿足時,CRB 不存在
  • Fisher 信息可以看作 py(y;x)p_{y}(\mathbf{y} ; x) 的曲率

4. 有效估計量

  • 定義:可以達到 CRB 的無偏估計量

  • 有效估計量一定是 MVU 估計量

  • MVU 估計量不一定是有效估計量,也即 CRB 不一定是緊緻(tight)的,有時沒有估計量可以對所有的 x 達到 CRB

  • 性質:(唯一的、無偏的,可以達到 CRB)
    x^  is  efficient    x^(y)=x+1Jy(x)xlnpy(y;x) \hat x \ \ is \ \ efficient \iff \hat x(y)=x+\frac{1}{J_y(x)}\frac{\partial}{\partial x} \ln p_{y}(\mathbf{y} ; x)

證明:有效估計量     \iff 可以達到 CRB     \iff 取等號 Var(e)Var(f)=1Var(e)Var(f)=1     \iff 取等號 e(y)=k(x)f(y)e(y)=k(x)f(y)     \iff e(y)=x+k(X)f(y)e(y)=x+k(X)f(y)
1Jy(x)=E[e2(y)]=k(x)E[e(y)f(y)]=k(x) \frac{1}{J_y(x)}=E[e^2(y)]=k(x)E[e(y)f(y)]=k(x)

5. ML estimation

  • Definition
    x^ML()=argmaxap(ya) \hat x_{ML}(\cdot)=\arg\max_{a} p(y|a)

Proposition: if efficient estimator exists, it’s ML estimator
x^eff()=x^ML() \hat x_{eff}(\cdot)=\hat x_{ML}(\cdot)
Proof:
x^eff(y)=x+1Jy(x)xlnp(y;x) \hat x_{eff}(y)=x+\frac{1}{J_y(x)}\frac{\partial}{\partial x}\ln p(y;x)
由於有效(valid)估計器不應當依賴於 x,因此上式中 x 取任意一個值都應當是相等的,可取 x^ML(y)\hat x_{ML}(y)
x^eff(y)=x^ML(y)+1Jy(x)lnp(y;x)xx=x^ML=x^ML(y) \hat x_{eff}(y)=\hat x_{ML}(y) + \frac{1}{J_y(x)}\frac{\partial \ln p(y;x)}{\partial x}\Big|_{x=\hat x_{ML}}=\hat x_{ML}(y)
備註:反之不一定成立,即 ML 估計器不一定是有效的,比如有時候全局的有效估計器(efficient estimator)不存在,也即此時按公式計算得到的 x^eff(y)\hat x_{eff}(y) 實際上是依賴於 x 的,那麼此時就不存在一個全局最優的估計器,此時的 ML 估計器也沒有任何好的特性。


其他內容請看:
統計推斷(一) Hypothesis Test
統計推斷(二) Estimation Problem
統計推斷(三) Exponential Family
統計推斷(四) Information Geometry
統計推斷(五) EM algorithm
統計推斷(六) Modeling
統計推斷(七) Typical Sequence
統計推斷(八) Model Selection
統計推斷(九) Graphical models
統計推斷(十) Elimination algorithm
統計推斷(十一) Sum-product algorithm

發佈了38 篇原創文章 · 獲贊 33 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章