Uber提出生成式教學網絡GTN,9倍加速神經網絡架構搜索

近期,Uber的研究人員在一篇名爲《Neural Architecture Search by Learning》的論文中提出了一種專用GAN——Generative Teaching Network (GTN) ,它可以生成數據和訓練環境,讓模型在接受目標任務測試之前先進行一些SGD步驟訓練,而使用GTN再合成數據訓練的神經網絡比利用真實數據訓練得更快。論文還表示,在利用GTN-NAS搜索新的神經網絡架構時,速度比使用實際數據快9倍,而且使用的計算量比典型NAS方法少幾個數量級

生成對抗網絡(英語:Generative Adversarial Network,簡稱GAN)是非監督式學習的一種方法,通過讓兩個神經網絡相互博弈的方式進行學習。

GTN,一種深度學習網絡

Generative Teaching Network,生成式教學網絡,簡稱GTN,是Uber在近期的一篇論文中提出的深度神經網絡,它可以自動生成綜合訓練數據,較一般利用真實數據訓練的方法,能夠實現9倍加速的神經體系結構搜索。在理論上,GTN可以生成任何類型的數據或訓練環境,並用於監督學習、無監督學習和強化學習,這是一種通用方法。

GTN就像生成對抗網絡(GAN)中的生成器一樣,它生成完全人工的數據,供少數學習步驟使用。之後,GTN會通過識別經典MNIST數據集中手寫圖像的方式對初始化神經網絡進行評估,從而提供正在優化的元損失目標。然後,通過元梯度在整個學習過程中進行區分更新GTN參數以提高目標任務的性能。

GTN可以自由創建不真實的數據,從而可以比真實數據更快地學習。例如,GTN可以將有關許多不同類型對象的信息組合在一起,或者主要將訓練重點放在最難的示例上。

爲驗證GTN,Uber 的研究人員還利用GTN合成的數據在神經網絡架構搜索(NAS)中進行實驗,並在CIFAR-10數據集中進行了測試,結果顯示GTN對NAS所產生的最佳架構有顯著改進。

神經網絡架構指的某些設計的選擇,例如神經網絡應具有的層數,每層應有多少個神經元,哪些層應連接到哪一層等。

GTN-NAS,將GTN合成數據用於NAS

爲了搜索神經網絡架構,Uber研究人員採用了許多論文 的思想,尋找一個小的神經網絡模塊,然後通過預設的藍圖將其重複組合,以創建各種大小的神經網絡架構。一旦發現了高質量的模塊,就可以使用它創建一個更大的網絡,然後對它進行訓練並與實際數據融合,以實現目標任務的收斂。

在GTN-NAS中,最終目標是找到一種性能最佳的神經網絡架構。而通過實驗,Uber研究人員發現GTN生成的數據可以預測出神經網絡架構的真實性能(對於GTN估計的前50%神經網絡架構,其Spearman等級相關係數爲0.56)。例如,根據GTN的快速估算,排名前10%的神經網絡架構都具有較高的性能(見下圖藍色方塊)。這就意味着研究人員可以使用GTN生成的數據,快速評估多種神經網絡架構,進而識別出一些優質的架構,將其放在真實數據集上訓練之後,就能夠較爲容易的找出在目標任務上具有高性能的神經網絡。

另外,在整個實驗過程中,Uber的研究人員還發現如果想要得到與GTN生成數據執行128個SGD步驟相同的結果,則需要對真實數據執行1200個SGD步驟,換句話說,使用GTN生成的數據比使用真實數據進行神經網絡架構搜索快9倍

NAS 需要大量的計算資源,它在完整的數據集上訓練,直到所產生神經網絡的性能不再提高,再選出性能最佳的神經網絡,但這種重複執行的過程往往非常昂貴和緩慢。

寫在後面

在機器學習中,標記數據的重要性不言而喻,但生成此類數據既耗時又昂貴。Uber的GTN提供了一種新的選項,它可以學習自動生成數據,使新的神經網絡快速學習任務;而且通過GTN,研究人員不僅能夠快速評估新神經網絡架構的學習潛力,還能很好地探索新的、性能更佳的神經網絡架構。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章