Paper: Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks
Author: Alec Radford, et al。
Publication: arXiv, 2015。
文章目錄
1 背景
- 當前無監督的表徵學習被廣泛的研究。
比較經典的有KNN等聚類算法;後有人提出了基於卷積的自編碼器;還有深度信念網絡也被用於層次的表徵學習。 - 生成自然的圖像。
非參模型主要是將大量的圖像用來作匹配的思路;
參數模型被廣泛地研究,比如有變分採樣、拉普拉斯圖像金字塔擴展方法等,但是目前似乎都沒有獲得較大的成功。 - CNN的內部可視化
如何將黑盒CNN的內部進行可視化和具體分析也是一個問題。
2 創新點
- 針對CGAN的限制和不穩定的訓練,提出DCGAN結構。
- 使用訓練好的判別器作圖分類任務,達到了比別的無監督方法更好的精度。
- 將學習到特定目標部分特徵的GAN的濾波器可視化展示。
- 展示了生成器在樣本生成方面的一些特性。
3 核心方法
3.1 爲穩定DCGAN的訓練作出的選擇
- 使用strided convoluations(判別器中)和fraction-strided convolutions(生成器中),取代了會影響穩定性的各種池化層。
- 使用批正則化穩定學習訓練。
- 爲了達到更深的結構去除了全連接層。
- 生成器中的輸出層使用Tanh激活函數,其它層使用了ReLu激活函數。
- 判別器都使用了LeakyReLU激活函數。
3.2 實驗經驗的參數選擇
預訓練:無
梯度下降方式:SGD
批的大小:128
權重初始化方式:0.02std的正態分佈
LeakyReLU的斜率:0.2
優化器:Adam
學習率:0.0002
動量項beta1:0.5
其他基本爲默認值。
3.3 數據集的選擇
- LSUN
臥室數據集,包含了超過三百萬個訓練樣本。
證明DCGAN不是通過過擬合和記憶性來生成高質量的樣本。
進一步的,作者爲了降低生成器對輸入樣本進行記憶的可能性,還使用了基於3072-128-3072去噪dropout和RELU的自編碼器,在32*32的降採樣的訓練樣本上進行學習。 - Faces
通過dbpedia獲取的名字搜索並在隨機的網站上獲取人臉圖像,得到了一萬個人的三百萬張圖片。
然後使用opencv的人臉檢測器進行檢測,返回了350,000個face boxes。用其進行訓練。
不使用數據增強。 - IMAGENET-1K
使用32*32的大小,無數據增強。
下圖是DCGAN生成器的主要模型結構:
4 DCGAN能力的經驗驗證
4.1 使用GAN分類CIFAR-10來作爲特徵提取器
一種典型的評估無監督學習算法的技術就是將其作爲特徵提取器應用於監督數據,然後評估利用這些特徵進行擬合的線性模型的表現。
將從Imagenet-1k上進行預訓練的網絡,結合SVM,用於CIFAR-10的分類,結果如下:
可以看出,DCGAN用了較少的單元數卻達到了較好的結果。
4.2 使用GAN分類SVHN來作爲特徵提取器
也使用了StreetView House Numbers dataset(SVHN)進行了實驗。
5 網絡內部的可視化分析
5.1 內部空間分析
5.2 判別器特徵的可視化
5.3 生成器的特徵表達
5.3.1 試圖不去構建特定的物體
去掉“窗口”濾波器,看看會如何?
5.3.2 人臉樣本的向量計算
向量計算的思想是,假設每一種概念如“男人”、“女人”、“汽車”等都由一個特定的向量來表達,那麼會產生一種有意思的向量運算。
即向量的概念在某種層面“相加”了,如:
與 “男人”向量 + “女人”向量 + “國王”向量 的結果最接近的向量是“女王”這個向量。
作者使用Z特徵,以這種思想做出的實驗結果如下:
6 將來的工作
作者提出,將來的工作可以着眼於:
- 解決該模型仍舊存在的少量不穩定問題。
- 將本研究擴展到視頻和語言等領域。
- 深度學習潛在空間的學習。