統計學習方法 第6章 邏輯斯諦迴歸與最大熵模型(2)
最大熵模型的學習
最大熵模型的學習等價於約束最優化問題:
即:
首先,引進拉格朗日乘子w0,…,wn,定義拉格朗日函數L(P,w):
最優化問題的原始問題:
對偶問題:
對偶函數的極大化等價於最大熵模型的極大似然估計。(證明p87)
先求解內部的極小化問題,得到:
即爲最大熵模型,其中:
之後可用最優化算法求解對偶問題外部的極大化問題,得到w。
模型學習的最優化算法
改進的迭代尺度法IIS
- 對所有i,取初值wi=0
- 對每一i:
- 另δi是方程
的解,其中
- 更新wi值爲wi+δi
- 另δi是方程
- 如果不是所有wi都收斂,重複步驟2
擬牛頓法BFGS算法
- 選定初始點w(0),取B0爲正定對稱矩陣,置k=0
- 計算
,若
則停止,最優參數
,否則進入步驟3 - 由
求pk - 一維搜索:求λk使得
- 置
- 計算
,若
則停止,最優參數
,否則求Bk+1:
,其中:
- 置k=k+1,轉步驟3