文章目錄

2 實驗

引入

論文地址：https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm14.pdf
論文應用：處理大規模MIL問題。
論文出發點：將包映射爲Fisher vector表示。

1 miFV

算法名miFV：multi-instance learning based on the Fisher Vector representation

1.1 Fisher Vector (FV)

FV (Fisher Vector) ¹是計算機視覺中，將一組從圖像中提取到的patch編碼爲高維向量，併合併爲一個圖像級別的signature。

令 $S = \{ \boldsymbol{s}_t, t = 1, \dots, T \}$ 爲具有 $T$ 個觀測值 $\boldsymbol{s}_t \in \mathcal{S}$ 的樣本；
令 $p$ 是一個用 $\lambda$ 建模，並生成 $\mathcal{S}$ 中元素的概率密度函數，則
樣本 $S$ 可以用一個梯度向量描述：
$G^S_{\lambda} = \bigtriangledown_{\lambda} \log p (S | \lambda). \tag{1}$ 需要注意的是 $G^S_{\lambda}$ 的維度僅僅取決於 $p$ 的數量，而與樣本大小 $T$ 無關，即，將不定長度的集合 $S$ 轉換爲固定長度的 $G^S_{\lambda}$ 。這一性質將很好地適應於miFV的映射函數 $\mathcal{M}_f$ 。

Fisher Kernel (FK) ²最初用於度量兩個樣本 $S_1$ 和 $S_2$ 的相似性：
$\mathcal{K}_{FK} (S_1, S_2) = {G^{S_1}_{\lambda}}' F_{\lambda}^{-1} G^{S_2}_{\lambda}, \tag{2}$ 其中 $F_{\lambda}$ 是Fisher信息矩陣 $p$ (下面公式裏用到的是 $\mathcal{s}$ ，而非 $S$ ，不知道是否是表述有錯)：
$F_{\lambda} = E_{\mathcal{s} \sim p} [\bigtriangledown_{\lambda} \log p (\mathcal{s} | \lambda) [\bigtriangledown_{\lambda} \log p (\mathcal{s} | \lambda)']. \tag{3}$
由於 $F_{\lambda}$ 是對稱且正定的，則其可近似爲 $F_{\lambda}^{-1} = L_{\lambda}'L_{\lambda}$ ，且式 (2)將被重寫爲：
$\mathcal{K}_{FK} (S_1, S_2) = \boldsymbol{f}_{\lambda}^{{S_1}'} \boldsymbol{f}_{\lambda}^{{S_2}}, \tag{4}$ 其中
$\boldsymbol{f}_{\lambda}^{{S}} = L_{\lambda} G_{\lambda}^S = L_{\lambda} \bigtriangledown_{\lambda} \log p (S | \lambda). \tag{5}$
式 (5)所示的標準化後的梯度向量便是Fisher Vector (FV)。就結果而言，非線性核與 $\mathcal{K}_{FK}$ 一起使用將等同於線性核與FV一起使用。

問題1： $L_{\lambda}$ 怎麼求？
問題2： $\bigtriangledown_{\lambda} \log p (S | \lambda$ 怎麼求？

1.2 使用FV重新表示包

將一個包看作是一個樣本 $S$ 。在傳統的機器學習假設中，包中實例爲獨立同分布，因此 $\mathcal{S}$ 中的 $\boldsymbol{s}_t$ 可以獨立的由 $p$ 生成。這裏的 $p$ 選擇爲高斯混合模型 (GMM)，並使用最大似然估計 (MLE)進行評估。具體過程如算法1。

算法1：miFV算法

輸入：
訓練集 $\{ (X_1, y_1), \dots, (X_i, y_i), \dots, (X_{N_B}, y_{N_{N_B}}) \}$
訓練：
使用MLE評估GMM p的參數 $\lambda = \{ w_k, \mathbf{\mu}_k, \bold{\sum}_k \}$
for $i = 1$ to $N_B$ do
將包 $X_i$ 映射爲一個FV： $\boldsymbol{f}_{\lambda}^{X_i} \leftarrow \mathcal{M}_f (X_i, p)$
$[\boldsymbol{f}_{\lambda}^{X_i}]_j \leftarrow \rm sign$ $([\boldsymbol{f}_{\lambda}^{X_i}]_j) \sqrt{|[\boldsymbol{f}_{\lambda}^{X_i}]_j |}$
$\boldsymbol{f}_{\lambda}^{X_i} \leftarrow \boldsymbol{f}_{\lambda}^{X_i} / \| \boldsymbol{f}_{\lambda}^{X_i} \|_2$
end for
使用新的訓練集 $\{ (\boldsymbol{f}_{\lambda}^{X_i}, y_1), \dots, (\boldsymbol{f}_{\lambda}^{X_{N_B}}, y_{N_B}) \}$ 訓練分類器 $\mathcal{F}$
測試：
使用同樣的方法對測試包進行映射
使用分類器 $\mathcal{F}$ 進行預測

上述步驟中，最關鍵的步驟爲4和6，即如何習得參數 $p$ 和進行映射。

1.2.1 參數 $p$ 的學習

令 $\lambda = \{ w_k, \mathbf{\mu}_k, \sum_k, k = 1, \dots, K \}$ 表示GMM參數的 $K$ 個部分，其中 $w_k$ 表示高斯模型的混合權重 (mixture weight)， $\bold{\mu}_k$ 表示均值向量 (mean vector)， $\sum_k$ 表示 $k^{th}$ (第k個)高斯模型的協方差矩陣。
給定一個包 $X_i = \{ \mathbf{x}_{i1}, \dots, \mathbf{x}_{ij}, \dots, \mathbf{x}_{i, n_i} \}$ ，令 $\mathcal{L} (X_i | \lambda) = \log p (X_i | \lambda)$ 。由於獨立假設和GMM模型，上述公式可以重寫爲：
$\mathcal{L} (X_i | \lambda) = \sum_{j = 1}^{n_i} \log p (\mathbf{x}_{ij} | \lambda) = \sum_{j = 1}^{n_i} \log \sum_{k = 1}^K w_k p_k (\mathbf{x}_{ij} | \lambda), \tag{6}$ 其中 $p_k$ 表示 $k^{th}$ 高斯模型：
$p_k (\mathbf{x}_{ij} | \lambda) = \frac{\exp \{ - \frac{1}{2} (\mathbf{x}_{ij} - \mu_k)' \sum_k^{-1} (\mathbf{x}_{ij} - \mu_k) \}}{ (2 \pi)^{D / 2} | \sum_k | ^{1 / 2}}. \tag{7}$
爲了確保 $p_k (\mathbf{x}_{ij} | \lambda)$ 是一個合法的分佈，混合權重必須滿足：
$\forall_k: w_k \geq 0, \sum_{k = 1}^{K} w_k = 1. \tag{8}$

問題3：第 $k$ 個高斯模型的協方差矩陣怎麼求？ $D$ 代表什麼？
問題4： $D$ 代表什麼？

1.2.2 映射函數 $\mathcal{M}_f$

實例 $\mathbf{x}_{ij}$ 關於 (w.r.t.)GMM模型參數 $\lambda = \{ w_k, \mathbf{\mu}_k, \sum_k \}$ 的梯度表示如下 (問題2的解決)：
$\bigtriangledown_{w_k} \log p (\mathbf{x}_{ij} | \lambda) = \gamma_j (k) - w_k, \tag{9}$

$\bigtriangledown_{\bold{\mu}_k} \log p (\mathbf{x}_{ij} | \lambda) = \gamma_j (k) \bigg (\frac{\mathbf{x}_{ij} - \mathbf{\mu}_k}{\sigma_k^2}\bigg ), \tag{10}$

$\bigtriangledown_{\mathbf{\sigma}_k} \log p (\mathbf{x}_{ij} | \lambda) = \gamma_j (k) \bigg[ \frac{(\mathbf{x}_{ij} - \mu_k)^2}{\sigma_k^2} - \frac{1}{\sigma_k} \bigg ], \tag{11}$ 其中 $\sigma_k$ 是方差向量， $\gamma_i (k)$ 是 $\mathbf{x}_{ij}$ 屬於第 $k$ 類高斯模型的概率：
$\gamma_i (k) = p (k | \mathbf{x}_{ij}, \lambda) = \frac{w_k p_k (\mathbf{x}_{ij} | \lambda)}{\sum_{t = 1}^{K} w_t p_t (\mathbf{x}_{ij} | \lambda)}. \tag{12}$
獲取梯度之後，餘下的步驟便是計算 $L_{\lambda}$ ² ³ (問題1的解決)。因此梯度的標準化如下：
$f_{w_k}^{X_i} = \frac{1}{\sqrt{w_k}} \sum_{j = 1}^{n_i} (\gamma_j (k) - w_k), \tag{13}$

$\boldsymbol{f}_{\mu_k}^{X_i} = \frac{1}{\sqrt{w_k}} \sum_{j = 1}^{n_i} \gamma_j (k) \bigg (\frac{\mathbf{x}_{ij} - \mathbf{\mu}_k}{\sigma_k}\bigg ), \tag{14}$

$\boldsymbol{f}_{\sigma_k}^{X_i} = \frac{1}{\sqrt{w_k}} \sum_{j = 1}^{n_i} \gamma_j (k) \bigg[ \frac{(\mathbf{x}_{ij} - \mu_k)^2}{\sigma_k^2} - \frac{1}{\sigma_k} \bigg ], \tag{15}$ 上式中，(13)是一個標量，(14)、(15)則是 $d$ 維向量 ( $X_i$ 的維度是 $d$ )。
因此， $X_i$ 可以由級聯的 $f_{w_k}^{X_i}$ 、 $\boldsymbol{f}_{\mu_k}^{X_i}$ 、 $\boldsymbol{f}_{\sigma_k}^{X_i}$ 表示，經過算法1中7、8步🙅‍，最終表示爲一個 $(2d + 1)K$ 維的標準化的FV，即 $\boldsymbol{f}_{\lambda}^{X_i}$ 。

更加明白了一個道理，不看源代碼，真的好多坑坑窪窪啊/(ㄒoㄒ)/~~

2 實驗

使用到的數據集及相關特徵如下：

J. S ´ anchez, F. Perronnin, T. Mensink, and J. Verbeek, “Image Classification with the Fisher Vector: Theory and Practice,”
Int’l J. Computer Vision, vol. 105, no. 3, pp. 222–245, 2013. ↩︎
T. Jaakkola and D. Haussler, “Exploiting Generative Models in Discriminative Classifiers,” in Advances in Neural Information Processing Systems 11. Cambridge, MA: MIT Press, 1999, pp. 487–493. ↩︎ ↩︎
F. Perronnin and C. Dance, “Fisher Kernels on Visual Vocabularies for Image Categorization,” in Proc. IEEE Computer
Society Conf. Computer Vision and Pattern Recognition, Minneapolis, Minnesota, 2007, pp. 1–8. ↩︎

論文閱讀 (五)：Scalable Multi-Instance Learning (miFV2014)

文章目錄

引入

1 miFV

1.1 Fisher Vector (FV)

1.2 使用FV重新表示包

1.2.1 參數 $p$ 的學習

1.2.2 映射函數 $\mathcal{M}_f$

2 實驗

論文閱讀 (七)：Multi-Instance Dimensionality Reduction (2010 MIDR)

beautifulsoup4的使用

論文閱讀 (五)：Scalable Multi-Instance Learning (miFV2014)

Python線程與進程

論文閱讀 (二)：Multi-instance learning with key instance shift (MIKI2017)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

論文閱讀 (五)：Scalable Multi-Instance Learning (miFV2014)

文章目錄

引入

1 miFV

1.1 Fisher Vector (FV)

1.2 使用FV重新表示包

1.2.1 參數ppp的學習

1.2.2 映射函數Mf\mathcal{M}_fMf​

2 實驗

1.2.1 參數 $p$ 的學習

1.2.2 映射函數 $\mathcal{M}_f$