Entropy Search for Information-Efficient Global Optimization

原創

2020-03-20 01:50

文章目錄

Hennig P, Schuler C J. Entropy search for information-efficient global optimization[J]. Journal of Machine Learning Research, 2012, 13(1): 1809-1837.

@article{hennig2012entropy,
title={Entropy search for information-efficient global optimization},
author={Hennig, Philipp and Schuler, Christian J},
journal={Journal of Machine Learning Research},
volume={13},
number={1},
pages={1809–1837},
year={2012}}

概

貝葉斯優化中的 Entropy Search (EI) 方法.

主要內容

這篇文章關注的是
$\max_{x \in I} \:f(x),$
的問題, 且假設定義域 $I$ 是有界的.

一般, 通過高斯過程定義 $f(x)$ 的概率替代函數, 假設
$f(x) \sim \mathcal{N}(u_0(x), k(x,x)),\\ y = f(x) + \epsilon, \: \epsilon \sim \mathcal{N}(0, \sigma^2).$
在已經觀測到 $X = \{x_1, \ldots, x_T\}$ 以及 $Y = \{y_1, \ldots, y_T\}$ 的基礎上, 我們可以求得 $f(x^*)$ 的後驗分佈爲以
$\mu (x^*) = \mu_0(x^*) + k(x^*, X)^T [k(X, X) + \sigma I]^{-1}(Y-u_0(X)) \\ \sigma_*^2(x^*)=k(x^*, x^*) - k(x^*, X)^T (k(X,X)+\sigma I)^{-1}k(x^*,X)$
爲均值和方差的正態分佈.

我們的目的是在已有這些條件的基礎上, 尋找下一個(或多個)評估點.

定義:
$\tag{1} p_{min}(x) =p[x = \arg \min f(x)] = \int_{ f:I \rightarrow R} p(f) \prod_{\tilde{x} \in I, \tilde{x} \not = x} \theta[f(\tilde{x})-f(x)] \mathrm{d}f,$
其中 $\theta(x) = 1, x\ge0, else \: 0$ . $\prod$ 的部分在針對連續型的定義域時需要特別的定義. 顯然(1)表示 $x$ 爲最小值點的概率.

再定義損失函數(當然損失函數不選擇KL散度也是可以的, 但這是EI的名字的由來):
$\tag{2} \mathcal{L}(p_{min}) = \mathcal{L}_{KL}(p_{min})=-\int_Ip_{min}(x) \log \frac{p_{min}(x)}{b(x)} \mathrm{d}x.$
當我們選擇 $b(x)$ 爲 $I$ 上的均勻分佈的時候, 當我們最小化 $\mathcal{L}$ 的時候, $p_{min}$ 會趨向Dirac分佈(即某個點處的概率密度爲無窮, 其餘爲0, 顯然, 該點我們有足夠的信心認爲其是 $f(x)$ 的最小值點).

但是這樣還不夠, 我們進一步關心其期望損失(最小化):

$\tag{3} \langle \mathcal{L} \rangle_{x} = \int p(y|x) \mathcal{L}(p_{min} (\cdot|Y, X, y, x)) \mathrm{d}y.$

通過最小化(3)，我們可以獲得接下來的評估點.

接下來的問題是如果去估計.

$p_{min}$ 的估計

比較麻煩的是 $\prod$ 的部分, 策略是挑選 $N$ 個點 $\tilde{x} = \{\tilde{x}_1, \ldots, \tilde{x}_N\}$ . 一種是簡單粗暴的網格的方式, 但是這種方式往往需要較大的 $N$ , 另一種是給定一個測度 $u$ , 根據已有的觀察 $(X, Y)$ , 通過 $u(X, Y)$ 採樣 $\tilde{x}$ . 一個好的 $u$ 應該在使得令損失能夠產生較大變化的區域多采樣點, 針對本文的情況應該在 $p_{min}$ 值比較高的地方多采樣點.

文中給了倆種方法, 一種直接的方法是 $p_{min}$ 可以用蒙特卡洛積分去逼近,

一下是我猜想的用MC積分的方式(文中未給出具體的形式)"

根據一定策略選取 $\tilde{x}$ ;
重複J次:

根據概率 $p(f)$ 採樣 $f(\tilde{x}), f(x)$ ,
計算 $\prod$ 部分

取平均

作者選擇的是 Expectation Propagation (EP）的方法, 這種方法能夠估計出 $\tilde{x}_i, i=1,\ldots,N$ 處的概率 $q_{min}(\tilde{x_i})$ : $f_{min}$ 存在於以 $\tilde{x}_i$ 爲"中心"的一定範圍內(文中用step)的概率. 當 $N$ 足夠的的時候, 這個step正比於 $(Nu(\tilde{x}_i))^{-1}$ , 則:
$p_{min}(x) \approx \frac{q_{min}(x_i)Nu(\tilde{x}_i)}{Z_u}, \: Z_u=\int u(x) \mathrm{d}x, \: x_i = \arg \min_{x_i \in \tilde{x}} \|x-x_i\|.$

這樣我們就完成了 $p_{min}$ 的估計, 一個更加好的性質是 $q_{min}$ 關於 $\mu, \sigma_*$ 的導數是有解析表達式的, 且 $Z_u$ 是不必計算的(後續最小化過程中可以省略掉).

$\mathcal{L}_{KL}$ 的估計

其中 $\hat{p}_{min}=q_{min}$ .

$\langle \Delta \mathcal{L} \rangle$

$\arg \min_X \langle \mathcal{L} \rangle_X$ 用最小化一階近似替代, 積分可以用MC積分逼近.

最後給出算法:

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Entropy Search for Information-Efficient Global Optimization

文章目錄

概