【週記】002-20190907-20190915（利用CVAE發明GDAN進行GZSL;通過增加其他輸入和文本插值改進GAN進行T2I）

原創

ahuljh

2019-09-17 01:08

報告內容

（泛讀靠自覺，精讀要深刻，進展需顯著）

論文精讀

論文1：（作者，題目，發表信息）

題目：Generative Dual Adversarial Network for Generalized Zero-shot Learning（用於廣義零樣本學習的生成對偶對抗網絡）

作者：芝加哥伊利諾斯州大學，字節跳動，中山大學

來源：CVPR2019

問題動機：無論圖像類別是否已知，都可對其進行分類（圖像→標籤/類別）

解決思路：學習到文本到圖像特徵的映射函數，進而可以根據文本的向量控制圖像特徵的生成

方法亮點：

（1）利用生成方法，對未知類別生成圖像特徵，將其轉化爲有監督分類問題；

（2）生成器分爲特徵生成器網絡（語義→視覺特徵）和迴歸器網絡（視覺→語義），相互學習；

（3）“雙”：上述部分與對抗網絡在循環一致性損失和對抗性損失下同時進行訓練

主要結果：可以合成大量樣本從而幫助判別器訓練，提高未知類別的分類精度

存在問題：不能理解直觀的矩陣表示、t-SNE

關於能否解決自己問題的思考：調和精度、CVAE、判別器的輸入

翻譯、原文、PPT、代碼：https://mp.weixin.qq.com/s/qE7Bbk4VriC_cOdatIGfdQ

論文2：（作者，題目，發表信息）

題目：Generative Adversarial Text to Image Synthesis

來源：基於生成對抗的文本到圖像合成（ICML 2016）

問題動機：用字符集卷積，使得文本可以控制圖像的生成

解決思路：噪聲+字符向量得到合成圖像，並將訓練圖像與文本聯合輸入通過判別器驗證是否匹配

方法亮點：

（1）使用DCGAN；

（2）生成器是通過對字符和噪聲卷積合成圖像；

（3）判別器是合成圖像與原始文本進行判斷匹配；

（4）GAN-CLS將錯誤的輸入也輸入了判別器；

（5）GAN-INT對文本嵌入進行流型插值；

（6）通過樣式編碼器轉換圖像的風格

（7）在MS-CoCO數據集上進行了測試

主要結果：根據文本得到了合成的圖像

存在問題：無代碼，不能真正的看到文本生成圖像的效果

關於能否解決自己問題的思考：需要進一步找GAN從文本生成圖像的代碼並進行實現（CVAE文本編碼和GAN文本編碼代碼實現）

研究進展

方法進展（反映思考深入程度）：文本生成圖像/圖像生成對應標題/進行樣式轉換/附加t-SNE可視化展示/準確率度量

實驗進展（反映Coding工作量）：利用MATLAB代碼瞭解零樣本數據集的特點，xlsa17的代碼復現

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【週記】002-20190907-20190915（利用CVAE發明GDAN進行GZSL;通過增加其他輸入和文本插值改進GAN進行T2I）

組會所講內容（論文/知識）

C++簡要介紹

【週記】003-20190916-201900923（隱含屬性字典LAD可還原保持語義，不同變量交替優化）

《算法分析與設計》學習心得

高項

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結