EM算法爲什麼可視爲F函數的極大-極大算法?

(本人知乎同名賬號亦發了此文)

讀前須知

本文面向讀者爲:正在看李航的《統計學習方法》,看到9.4.1 的F函數的極大-極大算法時不能理解

正文

本文先說求偏導過程,再說F函數,最後談談爲什麼是“極大-極大算法”(兩個極大各自是什麼)。

求偏導

一、先說求偏導。這塊內容其實有很大跳步,卡這半天,剛終於懂了,附上我的手寫內容(我猜有人在疑惑爲什麼求導結果中不含Σ\Sigma?):
在這裏插入圖片描述

F函數

二、再說這個函數F,看見上圖的引理9.2沒?當F取極大時,碰巧就是上圖式(9.36),而對這個式子,求 θ\theta 使其極大,不就是EM算法要乾的事情了麼。

兩個“極大”

三、多說一句,爲什麼是“極大-極大算法”,爲什麼是兩個“極大”,第一個極大,固定 θ\theta ,求 PP^\sim 得到上圖式(9.36);第二個極大,就是對(9.36)固定 PP^\sim,求 θ\theta 得到極大,而這第二個極大,正是在本章開篇的三硬幣問題中所講述的、EM算法要解決的問題(見第二版p176式(9.4))。看到這裏,再補兩張圖,希望能幫到讀者:
在這裏插入圖片描述

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章