Bregman 散度（Bregman divergence）和Bregman信息（Bregman information）

原創

2020-05-31 10:02

Bregman 散度和Bregman information

Bregman散度

给定一个严格凸函数 $\Phi$ ,由该函数生成的Bregman散度（损失函数） $D_\Phi(X,Y)$ 通过下面的公式给出：
$D_\Phi(x,y)=\Phi(x)-\Phi(y)-\left \langle \nabla\Phi(y),(x-y) \right \rangle \tag{1}$
其中， $\nabla\Phi(y)$ 是在 $y$ 上计算 $\Phi$ 的梯度， $x-y$ 是 $x$ 与 $y$ 的向量差，而 $\left \langle \nabla\Phi(y),(x-y) \right \rangle$ 是 $\nabla\Phi(y)$ 与 $(x-y)$ 的内积，对于欧几里得空间的点，内积就是点积。
$D_\Phi(x,y)$ 可以写成：
$D_\Phi(x,y)=\Phi(x)-L(x)\tag{2}$
其中
$L(x)=\Phi(y)-\left \langle \nabla\Phi(y),(x-y) \right \rangle \tag{3}$
它代表 $y$ 上正切于函数 $\Phi$ 的平面方程，使用微积分学的术语， $L(x)$ 是函数 $\Phi$ 点附近的线性部分，而Bregman 散度就是一个函数与该函数的线性近似之间的差，选取不同的 $\Phi$ ，可以得到不同的Bregman 散度

补充解释：

1. 凸函数：

凸函数是一个定义在某个向量空间的凸子集 $C$ （区间）上的实值函数 $f$ ，而且对于凸子集 $C$ 中任意两个向量 $x_1,x_2$ 恒有：
$f(\frac{x_1+x_2}{2})\leq\frac{f(x_1)+f(x_2)}{2}$
若这里凸集 $C$ 即某个区间 $I$ ，那么就是：设 $f$ 为定义在区间 $I$ 上的函数，若对 $I$ 上的任意两点 $x_1,x_2$ 和任意的实数 $\lambda \in(0,1)$ ，总有:
$f(\lambda x_1,(1-\lambda) x_2)\leq \lambda f(x_1)+(1-\lambda)f(x_2)$
则 $f$ 称为 $I$ 上的凸函数。
对于实数集上的凸函数，一般的判别方法是求它的二阶导数，如果其二阶导数在区间上非负，就称为凸函数。（向下凸）
如果其二阶导数在区间上恒大于0，就称为严格凸函数。

2. 损失函数：

损失函数（loss function）是用来估量模型的预测值 $f(x)$ 与真实值 $Y$ 的不一致程度，它是一个非负实值函数,通常使用 $L(Y, f(x))$ 来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：
$\theta^* = \arg \min_\theta \frac{1}{N}{}\sum_{i=1}^{N} L(y_i, f(x_i; \theta) + \lambda\ \Phi(\theta)$
其中，前面的均值函数表示的是经验风险函数， $L$ 代表的是损失函数，后面的是正则化项（regularizer）或者叫惩罚项（penalty term），它可以是 $L1$ ，也可以是 $L2$ ，或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的值。

3. 梯度：

函数梯度是与方向导数有关联的一个概念.
设函数 $f(x.y)$ 在平面区域 $D$ 内具有一阶连续偏导数，则对于每一点 $P_0(x_0,y_0)\in D$ ，都可定出一个向量
$f_x(x_0,y_0)i+f_y(x_0,y_0)j$
这向量称为函数 $f(x.y)$ 在点 $P_0(x_0,y_0)$ 的梯度，记作 grad $f(x_0,y_0)$ ，或 $\nabla f(x_0,y_0)$ ,即：
$grad f(x_0,y_0)=\nabla f(x_0,y_0)=f_x(x_0,y_0)i+f_y(x_0,y_0)j$
其中 $\nabla =\frac{\partial}{\partial x}i+\frac{\partial}{\partial y}j$ 称为（二维的）向量微分算子或Nabla算子。

4. 内积：

设有 $n$ 维向量
$x=\left( \begin{array}{ccc} x_1 \\ x_2 \\ x_3 \\ . \\ .\\ .\\ x_n \end{array} \right) , y=\left( \begin{array}{ccc} y_1 \\ y_2 \\ y_3 \\ . \\ .\\ .\\ y_n \end{array} \right)$
令
$[x,y]=x_1y_1+x_2y_2+. . .+x_ny_n$
$[x,y]$ 称为向量 $x$ 与 $y$ 的内积
内积是两个向量之间的一种运算，其结果是一个实数，用矩阵记号表示当 $x$ 与 $y$ 都是列向量时，有：
$[x,y]=x^Ty$

由此可知：bregman散度其实是基于一级泰勒展开式的一种偏移量度量。选择不同的 $\Phi$ ,可以得到多种损失函数，如下图：

Bregman information

bregman information是基于bregman散度的，参见paper：Clustering with Bregman Divergences

bregman information的定义如下：
通俗点来讲就是，给定一个数据集 $X$ ，它的bregman information等于 $x_i$ 到 $E_v[X]$ 的bregman散度的均值。若我们把该数据集划分为多个子集（在聚类中，我们不妨把这些子集用簇来讲解），则可以得到总的bregman information等于簇内的bregman information加上簇间bregman information。如下定理所示：

回想我们聚类的目标：使簇内差异最小化而簇间差异最大化。结合上面的定理，于是我们得到了这样一种聚类方法。即通过最小化簇内的bregman information，由上面等式可知，当簇内bregman information最小时，由于总的bregman information不变，则簇间的bregman information则相对最大。正好契合我们的聚类目标。

于是有算法一：
对比我们经典的k-means算法如下图
通过上面的对比，我们可以发现，两者都是参数型聚类算法（需要事先指定一些参数，比如k值），然后通过迭代重定位的策略得到最终结果。

补充解释bregman information算法（相对于簇质心）的全局目标函数是单调的，证明如下

未完待续

参考文献
[1] Banerjee A , Merugu S , Dhillon I S , et al. Clustering with Bregman Divergences[J]. Journal of Machine Learning Research, 2005, 6(4):1705-1749.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Bregman 散度（Bregman divergence）和Bregman信息（Bregman information）

Bregman 散度和Bregman information

Bregman散度

补充解释：

1. 凸函数：

2. 损失函数：

3. 梯度：

4. 内积：

Bregman information

SpringBoot配置雙kafka

MapReduce模型與Yarn

Bregman 散度（Bregman divergence）和Bregman信息（Bregman information）

RDD彈性分佈式數據集

SpringBoot教程

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結