進化策略優化算法CEM(Cross Entropy Method)

1. 進化策略與遺傳算法

進化策略算法(Evolutionary Strategies,ES)是一種基於進化理論的算法，通過適者生存的自然法則來淘汰和篩選樣本，目的是獲得更好的樣本（參數），與遺傳算法一樣，它也是通過參數擾動來探索更好的解，但是進化策略可以看做是遺傳算法的一種擴展：在遺傳算法中，我們用一串0/1數組表示遺傳DNA，用父代們的DNA重組和變異得到不同的子代DNA，然後通過適應性函數判斷子代DNA的得分，選出得分較高的子代進行下一次重組和變異，直到算法收斂；而進化策略算法把DNA的0/1的二值性表示擴展到了連續的實數空間，每個數值的變異強度由其方差決定，變異後的值圍繞其均值波動。進化策略算法在遺傳信息上的表達相對更加豐富，而且還可以遺傳變異強度，因此可以看做是遺傳算法的一種擴展。

2.Cross Entropy Method (CEM)

Cross Entropy Method是一種進化策略算法，它雖然也是基於交叉熵，但並不是我們熟知的監督學習中的交叉熵方法。這個算法的核心是一個參數優化的過程，舉個一般的例子，我們考慮估計一個期望 $E_{u} (H (x)) = \int H (x) f (x; u) d x$ ，最簡單的方法就是用樸素蒙特卡羅採樣從真實概率密度函數 $f (x; u)$ 中採樣一些樣本 $x_{i}$ ，然後計算 $1 / n \sum_{n} H (x_{i})$ ，若事件 $H (x)$ 發生的概率很小，那麼樸素蒙特卡羅需要非常多的樣本代價才能估計準這個期望；CEM算法則引入重要性採樣(importance sampling)，從另一個類似的概率密度函數 $f (x; v)$ 中進行採樣，則期望計算變成： $1 / n \sum_{n} H (x_{i}) W (z; u, v)$ ，其中 $W (z; u, v) = f (x; u) / f (x; v)$ ，於是現在的目標變成了如何找到一個最優的採樣函數 $f (x; v^{*})$ 去指導採樣出一些少量的樣本來準確地估計這個期望，CEM通過在每次迭代中找到較好的採樣樣本 $x$ 來更新重要性函數的參數 $v$ (reference parameter)，目的是減小 $f (x; v)$ 與 $f (x; v^{*})$ 兩個分佈的差距，而這個差距是由KL散度（相對墒，但最後公式中只用到了交叉墒）來衡量的，所以最後取名爲Cross Entropy Method(CEM).

從本質上來說，CEM是一種基於參數擾動的搜索算法，給參數空間 $v$ 一些合理的擾動，然後在這些擾動（變體/子代）中搜索和選擇較好的集和，然後利用交叉墒來指導更新 $v$ ，讓這些擾動方向越趨近於我們想要的目標優化方向。與衆多監督學習算法一樣，CEM也運用了交叉墒來指導更新方向，但它卻是一個免梯度(gradients free)的方法，從進化的角度在解優化問題。下面是維基百科的解釋，有興趣的可以去看一下關於 $v$ 是如何更新的推導，這裏只給出它的最終形式：

v^{(t)} = \underset{u}{argmax} \frac{1}{N} \sum_{i = 1}^{N} H (X_{i}) \frac{f (X_{i}; u)}{f (X_{i}; v^{(t - 1)})} \log f (X_{i}; v^{(t - 1)})

The cross-entropy (CE) method developed by Reuven Rubinstein is a general Monte Carlo approach to combinatorial and continuous multi-extremal optimization and importance sampling. The method originated from the field of rare event simulation, where very small probabilities need to be accurately estimated, for example in network reliability analysis, queueing models, or performance analysis of telecommunication systems. The CE method can be applied to static and noisy combinatorial optimization problems such as the traveling salesman problem, the quadratic assignment problem, DNA sequence alignment, the max-cut problem and the buffer allocation problem, as well as continuous global optimization problems with many local extrema.

下面，我們根據兩個例子具體來看一下CEM方法的應用：

2.1 求最短路徑大於固定值的概率

我們首先考慮一個最短路問題，從A到B點如何找到一條路徑讓總距離最小。每條路的距離figure1中的各個權值表示，這裏一共有5個權值，但是每個權值 $X_{1}, X_{2}, X_{3}, X_{4}, X_{5}$ 是按照某些均值 $u_{1}, u_{2}, u_{3}, u_{4}, u_{5}$ 的指數分佈隨機產生的，每個權值的產生相互獨立。

我們的目標是去估計出一套指數分佈的參數，讓其產生的權值滿足最短路徑大於一個固定值這一條件，由於採樣的隨機性不可能讓所有樣本都滿足這個條件，因此我們考慮滿足這個條件的樣本佔比，佔比越大，說明我們能更容易產生讓最短路較大的權值。

我們定義權值 $X = (X_{1}, . . ., X_{5})$ 和權值參數 $u = (u_{1}, . . ., u_{5})$ ，那麼權值 $X$ 的概率分佈函數(pdf) $f (; u)$ 可以寫成：

f (x; u) = \exp (- \sum_{j = 1}^{5} \frac{x_{j}}{u_{j}}) \prod_{j = 1}^{5} \frac{1}{u_{j}}

我們令 $S (X)$ 爲從A到B的最短長度，那麼我們可以寫出 $S (X)$ 大於固定值 $γ$ 的概率爲：

ℓ = P (S (X) > γ) = E (I_{{S (X) > γ}})

一個直接估計 $ℓ$ 的方法是用簡單蒙特卡洛採樣：從 $X$ 的分佈中生成一系列隨機樣本 $X_{1}, . . ., X_{N}$ ，然後用下面的均值估計作爲 $ℓ$ 無偏估計：

\frac{1}{N} \sum_{i = 1}^{N} I_{{S (X_{i}) > γ}}

然而，從常識我們知道，對於較大的 $γ$ ， $ℓ$ 概率值會很小，因此簡單蒙特卡洛需要更多的樣本去準確估計 $ℓ$ ，也就是說我們需要付出較大的代價，如增大采樣個數 $N$ 才能獲得一個比較小的相對誤差。一個更好的辦法是引入重要性採樣importance sampling(IS)，用另外一個採樣概率密度函數 $g$ 來獲得樣本 $X$ ，那麼 $ℓ$ 可以被重寫爲：

ℓ = \int I_{{S (x) > γ}} f (x) d x = \int I_{{S (x) > γ}} \frac{f (x)}{g (x)} g (x) d x = E_{x \sim g (x)} I_{{S (X) > γ}} \frac{f (X)}{g (X)}

由於期望的採樣是根據 $g (x)$ 來的，此時，一個 $ℓ$ 的無偏估計 $\hat{ℓ}$ 就叫做重要性採樣或者比例似然估計(IS/LR estimator)：

\hat{ℓ} = \frac{1}{N} \sum_{i = 1}^{N} I_{{S (X_{i}) > γ}} W (X_{i})

其中 $W (x) = f (x) / g (x)$ ，注意此時的樣本 $X_{1}, . . ., X_{N}$ 是從 $g$ 中隨機採樣而來。而且，當 $W = 1$ 時，這個問題便又退化爲了簡單的蒙特卡洛採樣了。那麼 $g (x)$ 到底該怎麼選呢？其實，我們可以把 $g (x)$ 同樣限制爲相互獨立的指數分佈，類似 $f (; u)$ ，因此我們用 $v_{1}, . . ., v_{5}$ 表示 $g (x)$ 的參數，那麼 $W$ 可以被寫成：

W (x; u, v) = \frac{f (x; u)}{f (x; v)} = \exp (- \sum_{j = 1}^{5} x_{j} (\frac{1}{u_{j}} - \frac{1}{v_{j}})) \prod_{j = 1}^{5} \frac{v_{j}}{u_{j}}

在這種情況下，我們樣本採樣的改變全部由參數 $v_{1}, . . ., v_{5}$ 決定，現在的主要問題是，我們如何去選擇參數 $v$ 來在特定的代價下更準確地估計 $ℓ$ 。幸運地是，CEM算法就提供了一種快速的方法去估計出這個最優參數，我們給出針對此問題的CE算法過程：

初始化 $v_{0} = u$ ，令 $t = 1$ 。
根據概率密度函數 $f (; v_{t - 1})$ 產生一些系列隨機樣本 $X_{1}, . . ., X_{N}$ ，計算每個樣本下的最短路徑 $S (X_{i})$ ，然後按照從小到大排序， $S_{(1)} \leq \dots \leq S_{(N)}$ 。我們計算位置排在 $1 - ρ$ 分位的樣本表現： ${\hat{γ}}_{t} = S_{((1 - ρ) N)}$ 如果 $\hat{γ_{t}}$ 小於 $γ$ ，否則， ${\hat{γ}}_{t} = \hat{γ}$ 。
我們用這些採樣出來的樣本去更新參數 $v_{t, j}, j = 1, \dots, n (= 5)$ :

${\hat{v}}_{t, j} = \frac{\sum_{i = 1}^{n} \sum_{i = 1}^{N} I_{{S (X_{i}) > \hat{γ}}} W (X_{i}; u, {\hat{v}}_{t - 1}) X_{i j}}{\sum_{i = 1}^{n} \sum_{i = 1}^{N} I_{{S (X_{i}) > \hat{γ}}} W (X_{i}; u, {\hat{v}}_{t - 1})}$
判斷 ${\hat{γ}}_{t} \geq \hat{γ}$ 是否成立，若不成立，則循環執行步驟2並設置 $t = t + 1$ ，若成立則進行步驟5
假設 $T$ 爲最終迭代次數，於是我們根據 $f (; {\hat{v}}_{T})$ 最後採樣一輪樣本 $X_{1}, \dots, X_{N_{1}}$ 作爲我們 $\hat{ℓ}$ 的最終的估計值:

\hat{ℓ} = \frac{1}{N_{1}} \sum_{i = 1}^{N_{1}} I_{{S (X_{i}) > γ}} W (X_{i}; u, {\hat{v}}_{T})

注意，我們在步驟2到步驟3其實是在估計重要性採樣函數 $g (x)$ 的參數，進化策略其實是作用於 $g (x)$ 上的，我們在原有的 $g (x)$ 上採樣出一批樣本，然後找出比較表現較好的樣本，用這些樣本去更新 $g (x)$ ，那麼下一次 $g (x)$ 可能會採樣出更好的樣本，這些樣本又可以更好地更新 $g (x)$ ，因此最終的估計值 $\hat{ℓ}$ 會越來越準確。在我們更新 $v$ 過程中，由於概率密度函數 $f (x) = e^{x}$ 是基於指數形式的，因此求log後我們可以看到分子最後一項爲 $X_{i j}$ 。

在進行迭代前，我們需要設置好一些超參數如分位值 $ρ$ (一般處於0.01到0.1)，這個值越小，我們算法收斂越慢，因爲每次更新的幅度變小了；反之，若這個值較大，雖然我們算法收斂更快，但是有可能會導致達不到全局最優解。我們還必須確定 $N$ 和 $N_{1}$ 的值，這兩個值決定着採樣的樣本數量，你可以理解爲遺傳算法中子代的個數，當子代越多，我們對子代進化的方向把握得越全面，但是計算量會提升。

那麼效果如何呢？假設我們的初始參數向量 $u$ 爲(0.25, 0.4, 0.1, 0.3, 0.2)，我們要找到一組參數 $\hat{v}$ ，並用 $f (; \hat{v})$ 採樣出的 $X$ 權值讓最小路徑大於2，即 $γ = 2$ 。普通的蒙特卡洛方法需要採樣 $10^{7}$ 個樣本才能估計出一套參數，用這套參數採樣出的權值的最短路徑僅有 $1.65 \times 10^{- 5}$ 概率大於2(相對誤差在0.165之間)；而CEM算法只需要6次迭代，每次迭代產生 $N = 1000$ 個樣本，就可以達到相同的效果，估計概率爲 $1.65 \times 10^{- 5}$ (相對誤差在0.03之內)的效果，整個計算過程3秒之內。

2.2 組合優化例子

假設我們有個黑箱子，裏面有一些0/1變量 $y = (y_{1}, \dots, y_{n})$ ，我們不能直接觀察到這些值，但我們可以通過一些嘗試獲得一些反饋來估計這些變量：通過輸入一串同樣長度的0/1變量 $x = (x_{1}, \dots, x_{n})$ ，然後黑箱子會返回我們的輸入值有多個是猜對的。我們的目標就是不斷的嘗試，最終估計出這些0/1變量的真實值。

其中，箱子返回值 $S (x)$ 爲:

S (x) = n - \sum_{j}^{n} | x_{j} - y_{j} |,

一種非常簡單的方法就是進行n次獨立的伯努利試驗，每次採樣按照 $p = p_{1}, \dots, p_{n}$ 概率進行採樣，當我們獲得最優解的時候， $p = y$ ，此時，採樣出來的值必有 $x = y$ ，那麼我們如何估計這些 $p$ 參數呢？CEM算法還是會把問題轉化爲類似2.1中求解大於固定值概率的問題，具體來說，我們會去估計 $S ((x)) \geq n$ 的概率，最終的目標就是讓這個概率爲1，首先我們會定義一個初始 ${\hat{p}}_{0} = (0.5, \dots, 0.5)$ , 然後進行伯努利試驗產生一批樣本，選出樣本中 $S (x)$ 較大的，然後用這些樣本更新 $\hat{p}$ ，直到 $\hat{p}$ 中所有的元素全爲0或1，且S(x)=1，算法達到最優解，此時 $y$ 的最終估計結果就爲 $\hat{p}$ 。

3. CEM與強化學習

CEM也可以用來求解馬爾可夫決策過程，也就是強化學習問題。我們知道，強化學習也是一種動態規劃過程，在某個狀態下選擇某個動作就像在某個節點選擇路徑一樣，整個過程就是一個從初始狀態到末狀態的路徑規劃問題，只不過我們希望得到一條能最大化收益的路徑。在這種考慮下，就可以用CEM建模了，我們讓一條完整的路徑成爲一個樣本 $x = (s_{0}, a_{0}, s_{1}, a_{1}, \dots, s_{n}, a_{n})$ ，我們讓路徑中獲得的總收益成爲 $S (x) = \sum_{i}^{n} r (s_{i}, a_{i})$ ，目標是最大化這個 $S (x)$ ，那麼如何採樣出這些樣本呢？我們可以構建一個 $p$ 矩陣：矩陣行表示狀態，列表示動作，如 $p_{i j}$ 表示在狀態 $s_{i}$ 下執行 $a_{j}$ 動作的概率，我們通過對這個 $p$ 矩陣進行多次採樣就可以獲得多個樣本，然後選出 $S (x)$ 較高的樣本用來更新 $p$ 矩陣，不斷迭代，最終找到最優 $\hat{p}$ 矩陣。

這是一種類似於策略迭代(policy iteration)的強化學習方法：通過 $p$ 矩陣找到在每一步狀態下各個動作的概率來形成決策策略，但參數更新並沒有用到梯度，從另外一個角度，你也可以認爲這是一種值迭代(value iteration)的強化學習方法，此時 $p$ 矩陣就是經典Q-learning中的Q矩陣，只不過Q矩陣中第 $i$ 行第 $j$ 列元素表示的是狀態 $s_{i}$ 下動作 $a_{j}$ 的未來收益的期望，基于貝爾曼方程(Bellman equation)來更新Q值；而 $p$ 矩陣表示的是概率值，通過交叉墒來更新。

Reference1: https://people.smp.uq.edu.au/DirkKroese/ps/aortut.pdf
Reference2: https://en.wikipedia.org/wiki/Cross-entropy_method

進化策略優化算法CEM(Cross Entropy Method)

1. 進化策略與遺傳算法

2.Cross Entropy Method (CEM)

2.1 求最短路徑大於固定值的概率

2.2 組合優化例子

3. CEM與強化學習

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

java由於越界導致的報錯

Rails Web App Learning in action (2)--the basic version of students selective courses

Rails Web App Learning in action (3) ---the basic version of students selective courses Contents

SDN開發實戰(2)－透明HTTP代理[Openflow+floodlight]

機器學習實戰－Scikit決策樹分類算法

java-歸併排序與快排的效率比較

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結