改進的迭代尺度法（IIS）詳細分析

原創

丿一叶秋丶

2018-11-13 22:24

改進的迭代尺度法（Improved Iterative Scaling，IIS）是一種常見的優化算法，在最大熵模型和條件隨機場（Conditional Random Field，CRF）中都會用IIS進行相應的處理，從而提高算法的效率。

已知模型爲：

$P_{\lambda} (y|x) = \frac{1}{Z_{\lambda}(x)} exp(\sum_{1}^{n}{\lambda_i f_i(x,y) })$

式中： $f_{i}(x,y)$ 是二值函數， $\lambda$ 是參數， $Z_{\lambda}(x)$ 是歸一化因子，滿足：

$Z_{\lambda}(x)=\sum_{y}exp(\sum_{1}^{n}{\lambda_i f_i(x,y) })$

由 $P_{\lambda} (y|x)$ 可得 $\tilde{p}(x,y)$ 似然函數：

$L(\lambda) = \sum_{x,y} \tilde{p}(x,y) \log {p(y|x)}$

其中， $\tilde{P}(x,y)$ 是樣本 $(x,y)$ 出現的頻率。模型參數 $\lambda\rightarrow\lambda+\delta$ 時，對數似然函數的改變量爲：

$\begin{matrix}L(\lambda+\delta) - L(\lambda) = \sum_{x,y} \tilde{P}(x,y)\log {P_{\lambda+\delta}(y|x)}-\sum_{x,y} \tilde{P}(x,y) \log {P_{\lambda}(y|x)} \\\\\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:=\sum_{x,y} \tilde{P}(x,y) \sum_i {\delta_i f_i(x,y)} - \sum_x{ \tilde{P}(x) \log{ \frac{Z_{\lambda+\delta}(x) }{Z_\lambda(x) } }}\end{matrix}$

使用不等式 $-\log{\alpha} \ge 1 - \alpha$ （恆成立問題，求導證明），建立對數似然函數改變量的下界：

$\begin{matrix} L(\lambda+\delta) - L(\lambda) \ge\sum_{x,y} \tilde{P}(x,y) \sum_i {\delta_i f_i(x,y)} +1-\sum_x{ \tilde{P}(x) \frac{Z_{\lambda+\delta}(x) }{Z_\lambda(x)}}\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\\\\=\sum_{x,y} \tilde{P}(x,y) \sum_i {\delta_i f_i(x,y)} +1-\sum_x{ \tilde{P}(x) } \sum_{y}P_{\lambda}(y|x) exp(\sum_{i}{\delta_i f_i(x,y)}) \end{matrix}$

引入 $f^{\#}(x,y)$ ，滿足：

$f^{\#}(x,y) = \sum_i {f_i(x,y)}$

記 $L(\lambda+\delta) -L(\lambda)=A(\delta|\lambda)$ 此時：

$\begin{matrix}A(\delta|\lambda)=\sum_{x,y} \tilde{P}(x,y) \sum_i {\delta_i f_i(x,y)}+1 -\sum_x{ \tilde{P}(x) } \sum_{y}P_{\lambda}(y|x) exp(f^{\#}(x,y) \sum_{i}{\frac{\delta_i f_i(x,y)}{f^{\#}(x,y) }})\end{matrix}$

使用Jensen不等式： $exp{\sum_x p(x) q(x)} \le \sum_x{ p(x) exp\:{q(x)} }$ ，此時：

$\begin{matrix}A(\delta|\lambda)\ge\sum_{x,y} \tilde{P}(x,y) \sum_i {\delta_i f_i(x,y)}+1 -\sum_x{ \tilde{P}(x) } \sum_{y}P_{\lambda}(y|x) \sum_i\left({\frac{ f_i(x,y))}{ f^\#(x,y) }} exp({\delta_i f^{\#}(x,y))} \right)\end{matrix}$

記上式不等式右端爲：

$\begin{matrix}B(\delta|\lambda)=\sum_{x,y} \tilde{P}(x,y) \sum_i {\delta_i f_i(x,y)}+1 -\sum_x{ \tilde{P}(x) } \sum_{y}P_{\lambda}(y|x) \sum_i\left({\frac{ f_i(x,y))}{ f^\#(x,y) }} exp({\delta_i f^{\#}(x,y))} \right)\end{matrix}$

對 $\delta_{i}$ 求導得：

$\begin{matrix}\frac{B(\delta|\lambda)}{\alpha\delta_{i}}=\sum_{x,y} \tilde{P}(x,y) \sum_i {f_i(x,y)} -\sum_x{ \tilde{P}(x) } \sum_{y}P_{\lambda}(y|x) \sum_i( f_i(x,y)exp({\delta_i f^{\#}(x,y))})\end{matrix}$

令 $\frac{B(\delta|\lambda)}{\alpha\delta_{i}}=0$ ，可以求出 $\delta_{i}$ ，重複執行直到 $\lambda$ 收斂。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

改進的迭代尺度法（IIS）詳細分析

.NET有哪些好用的定時任務調度框架

Python 將PDF轉爲PDF/A、PDF/X，以及PDF/A轉回PDF

elk3

Kafka存儲機制

aws語音呼叫調用，告警電話

深度學習框架火焰圖pprof和CUDA Nsys配置指南

爬蟲兩種繞過5s盾的方法

【轉】[C#] WebAPI 防止併發調用二（冥等性）

【轉】[SQL Server]關掉 SSMS 的 IntelliSense

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

機器學習——線性迴歸模型詳解

主成分分析（PCA）推導過程及簡單實例

Python中讀取txt文件的三種可行辦法

Windows和Ubuntu環境下修改Jupyter Notebook默認文件路徑

將csv轉換爲json，並查找json中的數據

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結