【GAN】用於生成圖像的評價指標——IS和FID

在使用GAN進行圖像生成任務中，我們的目的就是爲了得到高質量的生成圖像，那麼總得需要個度量指標來衡量生成的圖像是否是“高質量”的吧？不能完全靠人眼主觀判斷。這裏提到生成圖像的“高質量”，主要從兩方面考慮：

圖像本身的質量。如：是否清晰，內容是否完整，是否逼真等等。
多樣性。最終的生成器所生成的圖像需要多種多樣的，不能只生成一種或幾種類型的圖像，產生的這種現象稱爲模式崩潰（Mode collapse）。

下面介紹兩個在文獻中常用的評價指標，IS（Inception Score）和FID（Fréchet Inception Distance）。

一、IS（Inception Score）

Inception Score[1] 使用在ImageNet上預訓練的Inception V3 Network作爲分類網絡，將生成器生成的圖像輸入到Inception V3 Network中，對該網絡輸出值（圖像所屬類別）做統計分析。
IS的計算公式如下：
$IS(G)=\exp(\mathbb{E}_{\mathbf{x}\sim p_g}D_{KL}(p(y|\mathbf{x}) || p(y))) \tag 1$
其中：

$\mathbf{x} \sim p_g$ 表示 $\mathbf{x}$ 是從 $p_g$ 中生成的圖像樣本。
$D_{KL}(p || q)$ 表示分佈 $p$ 和 $q$ 間的KL散度（衡量兩個分佈間距離）。
$p(y|\mathbf{x})$ 表示在給定圖像 $\mathbf{x}$ 下分類爲 $y$ 的概率（ $\in [0, 1]^{1000}$ ，表示ImageNet中的1000類）。
$p(y)=\int_x p(y|\mathbf{x})p_g(x)$ ，表示類別的邊緣分佈。
$\exp$ 是便於比較最終計算的IS值。

之所以IS公式考慮分佈 $p(y|\mathbf{x})$ 和 $p(y)$ ，是出於以下兩個目的[2]：

所生成圖像中需要包含清楚的目標或者說 $p(y|\mathbf{x})$ 要有較低的熵。 $p(y|\mathbf{x})$ 反映出圖片的生成質量，概率值越大，說明生成的圖像屬於 $y$ 類的可能性越高，也就表明生成的質量越高。最理想的情況是分佈 $p(y|\mathbf{x})$ 集中在某一值，即該分佈的熵很低。因此， $p(y|\mathbf{x})$ 的熵越低，生成圖像的質量越好。
生成器要能生成ImageNet中多種類型的圖像，保持多樣性或者說 $p(y)$ 要有較高的熵。 $p(y)$ 指的是生成圖像的類別分佈，假如有 $n$ 類，理想情況是 $p(y_1)=p(y_2)=\cdots=p(y_n)=1 / n$ ，即類別分佈是一個均勻分佈，這時具有較高的熵。因此， $p(y)$ 的熵越高，生成圖像的多樣性越好。

如果滿足上述兩個特性，我們想要 $p(y|\mathbf{x})$ 和 $p(y)$ 的KL散度越大，從IS公式中看出IS值也越大。我們從推導中來看一看IS如何與 $p(y|\mathbf{x})$ 和 $p(y)$ 的熵聯繫起來的。這裏直接附上文獻[2]中的證明過程，對公式(1)左右兩邊取 $ln$ ：

而互信息熵（Mutual Information） $I(y;\mathbf{x})$
$I(y;\mathbf{x})=H(y)-H(y|\mathbf{x}) \tag 2$
因此
$ln(IS(G))=H(y)-H(y|\mathbf{x}) \tag 3$
由(3)式我們就可以輕易看出， $p(y)$ 的熵越大， $p(y|\mathbf{x})$ 的熵越小，IS值越大。

實際計算：
利用模型生成部分圖片 $\mathbf{x}^{i}$ 來計算先驗類別邊緣分佈 $\hat{p}(y)$ ：
$\hat{p}(y)=\frac{1}{N} \sum_{i=1}^{N}p(y|\mathbf{x}^{i}) \tag 4$
其中 $N$ 表示由模型生成的樣本圖片數目。之後可以求 $IS(G)$ 的近似值：
$IS(G) \approx \exp \Big(\frac{1}{N} \sum_{i=1}^{N} D_{KL}(p(y|\mathbf{x}^{i})||\hat{p}(y))\Big) \tag 5$
計算IS時，建議在 $N=5000$ 下計算10次，再計算IS值的均值和標準差。

缺點：

IS計算公式沒有考慮真實圖像（Ground Truth），不能反映出生成圖像與真實圖像是否相近[3]。
由於使用Inception Network，爲此對網絡權重變化較敏感。

補充知識點
互信息（Mutual Information）度量的是兩個隨機變量間相互依賴的程度。
假設有兩個隨機變量 $X$ 和 $Y$ ，它們的互信息定義爲：
$I(X;Y)=\sum_{x\in X} \sum_{y\in Y}p(x,y)\log\Big(\frac{p(x,y)}{p(x)p(y)}\Big)$
其中 $p(x,y)$ 是隨機變量 $X$ 和 $Y$ 的聯合概率分佈， $p(x)$ 和 $p(y)$ 分別是 $X$ 和 $Y$ 的邊緣概率分佈。當 $X$ 和 $Y$ 相互獨立時， $p(x,y)=p(x)p(y)$ ， $I(X;Y)=0$ 。而且互信息是非負的，對稱的。
再介紹下條件熵（Conditional Entropy）。給定隨機變量 $X$ 的條件下，隨機變量 $Y$ 的條件熵定義爲：
$\begin{aligned} H(Y|X) &= \sum_{x\in X}p(x)H(Y|X=x) \\ &=\sum_{x\in X}p(x) \big[-\sum_{y\in Y}p(y|x)\log p(y|x)\big] \\ &=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(y|x) \end{aligned}$
那麼，有：
$\begin{aligned} I(X;Y)&=\sum_{x\in X} \sum_{y\in Y}p(x,y)\log(\frac{p(x,y)}{p(x)p(y)}) \\ &=\sum_{x\in X} \sum_{y\in Y}p(x,y)\log (\frac{p(x|y)}{p(x)}) \\ &=\sum_{x\in X} \sum_{y\in Y}p(x,y)\log p(x|y) - \sum_{x\in X} \sum_{y\in Y}p(x,y)\log p(x) \\ &= -H(X|Y)- \sum_{x\in X} \Big( \sum_{y\in Y}p(x,y) \Big) \log p(x)\\ &=-H(X|Y)- \sum_{x\in X} p(x)\log p(x) \\ &=-H(X|Y)+H(X)=H(X)-H(X|Y) \end{aligned}$
下面給出互信息、條件熵、聯合熵間的韋恩圖：

有關更詳細內容，請移步：信息論 – 熵與互信息和什麼是「互信息」？

二、FID（Fréchet Inception Distance）

FID（Fréchet Inception Distance）[4]是用來計算真實圖像與生成圖像的特徵向量間距離的一種度量，這裏的特徵向量是由Inception v3 Network得到的。Inception v3 Network是一個分類網絡，網絡結構的最後兩層爲全連接層，以得到 $1*1*1000$ 分類向量，而FID採用的是倒數第二個全連接層的輸出 $1*1*2048$ 維向量用於距離度量。
我們用這個距離來衡量真實圖像和生成圖像的相似程度，如果FID值越小，則相似程度越高。最好情況即是FID=0，兩個圖像相同。
假設真實分佈 $P_r$ 和生成分佈 $P_g$ 建模爲多維高斯分佈，參數分別爲 $(\mu_r, \Sigma_r)$ 和 $(\mu_g, \Sigma_g)$ ，其中 $\mu$ 和 $\Sigma$ 分別爲均值向量和協方差矩陣。FID的計算公式爲：
$d^2 \big( (\mu_r, \Sigma_r), (\mu_g, \Sigma_g) \big)=\Vert \mu_r - \mu_g \Vert^2 + Tr \big( \Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{\frac{1}{2}} \big)$
其中 $Tr$ 表示矩陣的跡（矩陣對角元之和）。

實際計算：
那在計算FID時呢，一般性我們假設特徵向量維數爲 $n$ ，那麼均值向量 $\mu$ 的維數爲 $n$ ，協方差矩陣 $\Sigma$ 的維數爲 $n*n$ 。首先分別選取真實圖像和生成圖像各 $N$ 張，計算得到的特徵向量有 $N*n$ 維，之後分別計算這 $N$ 個樣本對應的均值向量 $\mu$ 和協方差矩陣 $\Sigma$ ，即得到了真實分佈 $P_r$ 和生成分佈 $P_g$ 對應的參數。詳細計算代碼可參考：How to Implement the Frechet Inception Distance (FID) for Evaluating GANs

缺點：
與IS同樣基於特徵的方法，不能很好區分指標的好壞是由生成圖像質量問題還是生成多樣性問題導致的[3]。IS和FID同樣還不能描述特徵的空間關係[6]。

參考文獻

[1] Improved techniques for training gans. (NeurIPS2016)
[2] A Note on the Inception Score.
[3] How good is my GAN?.(ECCV2018) (引用了其Related work部分)
[4] Gans trained by a two time-scale update rule converge to a local nash equilibrium. (NeurIPS2017)
[5] GAN生成圖像質量的兩個評價指標——IS與FID
[6] 【深度理解】如何評價GAN網絡的好壞？IS（inception score）和FID（Fréchet Inception Distance）
[7] How to Implement the Frechet Inception Distance (FID) for Evaluating GANs

NooahH

發佈了6 篇原創文章 · 獲贊 4 · 訪問量 1萬+

私信關注

【GAN】用於生成圖像的評價指標——IS和FID

一、IS（Inception Score）

二、FID（Fréchet Inception Distance）

參考文獻

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

認知提升的方法

C#開源的兩款功能強大的錄屏神器

【機器學習】機器學習中的正則化項

目標檢測中的評價指標mAP理解及計算

【深度學習】Faster R-CNN+win10+tensorflow1.12.0+python3.6+CUDA9.0+cudnn7.3配置

Python 之【re模塊的正則表達式學習】

批處理--ren重命名

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結