文獻 Multiview Generative Adversarial Network and Its Application in Pearl Classification閱讀心得——2

這篇文章的主要工作

1) 首先,我們提出MV-GAN作爲一種新的深度學習框架來產生珍珠的多視圖圖像。特別是,這裏我們將每個珍珠的多視圖圖像按上、左、右、主視圖和稀有視圖的順序疊加到圖像通道維度中,形成多視圖輸入數據。
2) 其次,MV-GAN框架結合了DCGAN的網絡結構和CGAN的標籤訓練方式。因此,鑑別器有四個卷積層,發生器有四個反捲積層。同時,珍珠標籤被用來限制每一層的訓練和生成圖像的自由度。然後,利用珍珠的多視圖圖像對MV-GAN進行訓練,利用訓練後的MV-GAN生成多視圖圖像,擴展訓練集。
3) 第三,利用擴展後的數據集對MS-CNN進行再訓練。實驗證明,MS-CNN確實可以進一步改進,特別是在原始訓練集相對較小的情況下。此外,MV-GAN還可以幫助MS-CNN抵抗環境帶來的干擾,如亮度干擾。這些結果表明,我們的MV-GAN框架在提高珍珠分類精度和穩健性方面具有潛在的應用前景。
4) 第四,MV-GAN可以用來生成各種物體的多視圖圖像。因此,它有可能應用於許多其他三維(3-D)物體分類[20]-[23]

METHOD

這篇文章使用與DCGAN[18]相同的網絡結構,並使用與CGAN[19]相同的策略來限制訓練和生成過程。

在不假設數據分佈的情況下,GAN直接從給定的數據集中抽取樣本,然後逼近其分佈。然而,這可能導致產生的數據的相當大的潛在空間,使得GAN不太可靠。此外,作爲一種無監督的學習方法,GAN只能生成與給定分佈相似的數據,而不能生成具有特定標籤的數據。因此,傳統的GAN不能滿足我們對珍珠圖像進行標籤擴展以完成分類任務的要求。
在MV-GAN體系結構中使用了來自[18]的以下指導原則:首先,將所有隱藏層設置爲卷積層,並且消除人工設置的池化層[18],以便網絡能夠學習其自己的上採樣(對於生成器)和下采樣(對於鑑別器)操作符;其次,完全連接的層去除以加快收斂速度[18];第三,使用一些技巧,即ReLU激活[52]用於生成器的每個隱藏層,LeakyReLU用於鑑別器的每個隱藏層,批處理規範化[53]用於生成器和鑑別器。
如CGAN[19]中所討論的,如果生成器和鑑別器都受某些額外信息y的約束,則GAN可以擴展到條件模型。這裏,y可以是任何類型的輔助信息,例如類標籤或來自其他模式的數據。我們可以簡單地將條件輸入和先驗噪聲作爲輸入引入到多層感知器的單個隱藏層中,這在CGAN中通過了混合國家標準技術研究所(MNIST)數據集的驗證【19】。或者,也可以使用更復雜的生成機制的高階交互。

對於所提出的MV-GAN方法,在CGAN[19]的啓發下,將類別標籤y作爲條件信息添加到輸入中。對於生成器,條件信息y和輸入噪聲pz(z)形成一個聯合的隱藏層表示,這可以看作是對勢維數的一些限制,即對MVGAN的隨機生成施加限制。
同樣,對於鑑別器,類別標籤也與輸入圖像相結合。這樣的條件信息被添加到神經網絡的每個隱藏層以增強約束,如圖2所示。生成器輸入層的類別標籤是一個熱編碼的。按順序,在每個隱藏圖層輸出要素地圖後,將添加相同的類別標籤作爲其中的一部分。此外,與一個one-hot類似,表示正確類別的特徵映射層被設置爲一,而所有其他的被設置爲零,如圖3所示。鑑頻器採用相同的編碼方法,由於類別標籤的限制,鑑頻器的任務是在一定的類別下區分假圖像和真圖像。
實現效果
算法流程圖

Experiments

將生成的圖片與真實圖片混合,形成最終數據集進行訓練,總計進行三個實驗。
首先,爲了研究數據量對MV-GAN模型的影響,我們使用了三個集合,每個類別分別包含1500、1000和500顆珍珠。因此,該方法在三個不同大小的珍珠圖像數據集上實現,分別包含10500、7000和3500個珍珠,即Pearl10500、Pearl7000和Pearl3500。其次,分別使用五個單視圖,在更多的CNN結構上進一步研究了MV-GAN的產生數據。第三,研究了不同光照條件下珍珠圖像的場景,探討了環境對珍珠圖像的影響MV-GAN的性能。
實驗結果
這樣的結果可以解釋如下。當數據集足夠大時,MS-CNN本身可以達到相當高的分類精度。因此,即使對MV-GAN進行了良好的訓練,使得生成的多視圖珍珠圖像具有高質量,進一步改進的可能性也相對較低。另一方面,當數據集太小時,MV-GAN可能沒有經過良好的訓練,從而產生較差的多視點珍珠圖像,這在一定程度上會損害分類模型。一些可憐的多視角珍珠圖像

由MV-GAN使用Pearl3500數據集產生的如圖5所示,在其他兩個數據集上出現的較少。可以看到,這些圖像看起來非常粗糙,與真實的珍珠圖像有很大的不同。
當數據集稍有不足時,MS-CNN本身可能無法產生滿意的分類結果。MV-GAN生成的多視圖珍珠圖像在這種情況下可以起到正則化的作用,即它傾向於對與原始訓練集中的真實圖像相同但在某些特徵上有所不同的圖像進行採樣,這樣可以防止過採樣,從而提高MS-CNN的性能。
在這裏插入圖片描述
1) 首先,不同的視圖可以提供不同的信息量,從而導致不同的分類性能,即我們發現,無論是否使用MV-GAN,CNN模型在使用左視圖和右視圖的珍珠圖像時表現得更好。

2) 其次,與多視圖圖像相比,單視圖圖像在區分不同種類珍珠方面提供的信息要少得多,即我們發現,無論是否使用MV-GAN,AlexNet在使用多視圖珍珠圖像時的性能都比使用單視圖珍珠圖像時好得多。這一結果與文獻[8]一致,表明了MS-CNN的優越性。

3) 第三,根據網絡結構和視角,採用MVGAN生成的單視圖圖像來擴展訓練集,可以提高分類精度,也可以不提高分類精度。因此,利用MV-GAN產生多視角珍珠圖像對提高MS-CNN的性能至關重要。

我們在不同的光照條件下合成珍珠圖像如下:對於像素值不爲零的區域,我們均勻地將像素值改變爲不同的亮度級別。例如,圖6示出了5個不同亮度級別的珍珠圖像。中間那張是原圖。左二者亮度較低,像素值分別減少20和40,右二者亮度較高,像素值分別增加20和40。我們使用這些不同亮度級別的珍珠圖像作爲新的測試集
不同亮度下的珍珠圖片
不同光照下的實驗結果

Conclusion

這篇文章以珍珠分類爲基礎,針對樣本數不足問題,將多個角度的珍珠圖像結合在一起進行圖像生成,再將生成後的圖像送入特殊的卷積神經網絡訓練,得出極好的性能。所作的實驗包括:不同模型下在生成數據和不生成數據中性能的差異、(感覺少一組實驗,即與傳統數據生成方法的對比實驗)、單一圖像生成和批次生成的對比實驗、不同光照下利用本數據生成方式性能對比實驗、不同數據量情況下性能提升程度的對比實驗。

參考文獻

[1]Q. Xuan, Z. Chen, Y. Liu, H. Huang, G. Bao and D. Zhang, “Multiview Generative Adversarial Network and Its Application in Pearl Classification,” in IEEE Transactions on Industrial Electronics, vol. 66, no. 10, pp. 8244-8252, Oct. 2019.doi: 10.1109/TIE.2018.2885684

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章