ICLR2019七大爭議論文:是評審不公,還是論文真不行


新智元報道

來源:Twitter; OpenReview

編輯:文強,肖琴

【新智元導讀】深度學習頂會 ICLR 2019 組委會貼出本屆評審最具爭議論文,俗話說“天才與瘋子之間只有一線之隔”,用隨機網絡蒸餾優化獎勵函數,看待RNN語言模型的新理論視角……這些研究是超前還是滯後?歡迎留下你的評論。

由 LeCun 和 Bengio 等人聯合發起的深度學習頂會 ICLR,今年你投稿了嗎?

不管投沒投稿,深度學習頂會的趨勢是一定要關注的。因論文評審全公開而頗受好評的ICLR,今年組委會特意延後了截稿時間,選出幾篇最具爭議的論文貼出來供業界討論。

究竟該得1分還是9分?是埋沒的金子還是路邊的石頭?一起來看。

衡量網絡層的“非線性”

題目:Detecting Memorization in ReLU Networks

地址:https://openreview.net/forum?id=HJeB0sC9Fm

得分:9,4,5

置信度:5,4,4

摘要:我們提出一個關於網絡層的“非線性”的新概念,該概念是基於input batch與線性系統的接近程度,反映在在激活矩陣的非負等級之上。

我們通過對激活矩陣應用非負分解來測量這種非線性。

考慮到類似樣本的batches,我們發現深層的高非線性表示記憶。此外,通過逐層分析,我們發現記憶機制由不同的階段組成。我們在幾個圖像和音頻數據集上訓練的完全連接卷積神經網絡上進行實驗。結果表明,作爲記憶的一個指標,我們的技術可用於執行早期停止。

關鍵詞:記憶,泛化,ReLU,非負矩陣分解

TL; DR:我們使用ReLU激活矩陣的非負等級作爲複雜性度量,並表明它與良好的泛化相關聯。

評審人1:

本文介紹了一種新的基於NMF的檢測方法,旨在區分記憶網絡和泛化網絡。作者通過大量數據集對這種方法進行評估,並與PCA和隨機消融進行比較,發現NMF優於後兩種方法。最後,文章證明NMF與泛化誤差密切相關,可用於early stopping。

總體上,這是一篇非常優秀的論文。寫作清晰,重點突出,實驗細緻嚴謹。對先前工作的討論也很完整的。如何在DNN中檢測記憶是一個非常有趣的問題,這是朝着這個目標邁出的很好的一步。因此,它可能會產生重大影響。

評分:9:被錄取論文的前15%,強烈接收

置信度:5:審稿人完全確定評估是正確的,對相關文獻非常熟悉

評審人2:bad clustering == memorization?

這篇論文提出了一種新的分析神經網絡層的魯棒性的方法,通過測量屬於同一類的樣本的激活模式中的“非線性”水平,並將其與“記憶”和泛化水平相關聯。

更具體地說,論文認爲一個良好的表示將一個類中的所有樣本聚在一起,因此,在更高的層上,來自同一個類的樣本的激活模式幾乎是相同的。在這種情況下,激活矩陣將有一個小的非負等級。然後,使用一種近似算法(非負矩陣分解)來計算魯棒性,並評估魯棒性(通過用低秩非負激活矩陣來替換激活矩陣)。實驗表明,在隨機標籤上訓練的網絡不如在真實標籤上訓練的網絡魯棒。

雖然這個概念很有趣,但是我發現論文中的論點有點模糊,算法的實用性可能會受到計算複雜度的影響,論文沒有討論這個問題。

首先,這篇論文缺乏一個清晰的對“記憶”概念的定義。雖然人們普遍認爲隨機標籤上的學習可以被稱爲“記憶”,但論文似乎將其定義爲同一類的網絡聚類點的好壞。爲了使這一概念得到證明,需要解決更多問題(略)。

評分:4

置信度:4

評審人3:很有意思的工作,但還不完整

本文的貢獻在於提出了一種定量的記憶測量方法,該方法基於這樣的假設:一個“泛化”深度網絡的深層激活應該與類內變化保持不變。該度量對應的是一個batch的激活矩陣能否被低秩分解來近似。論文提出了一種近似非負矩陣分解方法,並將其與PCA進行了比較。

這篇論文的結構和寫作方式使其易於閱讀。據我所知,這項工作所提出的衡量記憶的方式是全新的。然而,所提出的方法的新見解和/或實用性似乎非常有限。同時,論文也存在許多問題(略)。

總結:

本文用一種新穎的方法提出了一個有趣的觀察。然而,實驗部分存在問題,關於實驗的討論以及觀察對於訓練更好的模型和/或提供額外的見解的有用性也存疑。考慮到這些,我認爲這篇論文是一篇非常好的研討會論文,但是需要做更多的工作才能讓ICLR會議錄取。我願意與作者和其他評論者進行討論。

評分:5

置信度:4

無監督的多文檔摘要生成模型

題目:Unsupervised Neural Multi-Document Abstractive Summarization of Reviews

鏈接:https://openreview.net/forum?id=rylhToC5YQ

得分:3,5,9

置信度:4,4,4

摘要:已有研究採用 neural sequence transduction 方法,結合大量成對的文檔摘要實例數據集,對生成摘要方法進行了研究。然而,這樣的數據集是罕見的,利用這些數據集訓練的模型沒有推廣到其他領域。最近,只使用不成對的例子學習序列到序列的映射方面取得了一些進展。在我們的工作中,我們考慮只提供文檔(產品或商品評論)而不提供摘要的設置,並提出一個端到端的神經模型架構來執行無監督的生成摘要。我們提出的模型由一個經過訓練的自動編碼器組成,這樣輸入評論的表示的平均值就可以解碼成一個合理的摘要評論。我們研究了所提出的架構的變體,並進行了消融研究,以顯示特定組件的重要性。我們通過指標和人工評估表明,生成的摘要具有高度抽象性、流暢性和相關性,並且代表了輸入評論的平均情緒。

關鍵詞:無監督學習,摘要總結,評論,文本生成

TL;DR:我們提出了一種端到端的神經模型,用於無監督的多文檔摘要生成,並將其應用於商業和產品評論。

評審人1:評估方法和措施有問題,不應採用

本文提出了一種多文檔摘要生成的方法。該模型有兩個主要組件,一個部分是autoencoder,用來幫助學習編碼文檔表示,可以用來重構原始文檔,第二個組件用於摘要步驟,旨在確保摘要與原始文檔相似。

本文最大的問題在於其評估方法。我真的不知道這三種評估方法中有哪一種是真正能衡量的,而且沒有人類受試者的評估來支持它們。

  • 評級的準確性似乎取決於所使用的CLF的選擇,充其量只能說明總結是否傳達了與原始評論相同的平均意見。
  • 與原始文檔的單詞重疊似乎並不能很好地衡量抽象系統的質量,因爲可以很容易地得到具有低重疊的抽象摘要。用它來比較提取系統和抽象系統當然是不合適的。
  • 使用log likelihood作爲衡量流暢性和語法性的衡量標準存在許多衆所周知的問題,例如長度偏差和詞語頻率。
  • 這些評估措施似乎還會與評估摘要的長度相互作用,系統可以通過博弈的方式進行評估。

一篇評價指標不佳的論文可能會開創一個先例,對整個研究領域造成損害。出於這個原因,我不建議接收。

評分: 3

置信度:4

評審人2:有前途的無監督方法,但明顯存在問題

本文研究了多文檔摘要在沒有成對文檔的情況下進行摘要生成的問題,採用了一種無監督的方法。主模型由一對鎖定的自編碼器和解碼器構成。對模型進行了訓練和優化。

通過與一些簡單的基線模型的比較,作者能夠證明該設計的潛力。通過消融研究論證了幾種模型構件的必要性。這篇論文結構比較好,也比較完整。本文的主題與ICLR非常吻合。本文提供了一些關於沒有(監督)配對數據集的情況下,多文檔摘要學習模型的新穎想法。但存在幾個明顯的問題。

總結而言,這個模型似乎建立在一個隱含的假設之上,即多文檔的輸出摘要應該與單個輸入文檔足夠相似。在許多情況下,這可能不是真的,這會影響方法是否能夠推廣。文檔輸入可以涵蓋主題的不同方面(輸入文檔之間的異質性,包括主題、觀點等),或者它們的寫作風格或長度可能與摘要非常不同。在這種情況下,評估指標可能不能很好地工作。也許對輸入進行一些預分類或聚類,然後對每個輸入進行總結會有幫助。

評分:5

置信度:4

評審人3:在抽象式無監督多文檔摘要的基礎上開創了新的工作

這篇投稿提供了一個真正新穎、創造性的、有用的方法來實現無監督的抽象多文檔摘要,這是一個相當令人印象深刻的工作。

在沒有ground-truth摘要的情況下,替代指標看起來非常有用,並且可以被重用到其他問題。特別是,將review/summary score的預測作爲一個總的度量標準是非常好的想法。

模型變體和實驗清楚地證明了所提出模型在各個方面的有用性。

評分:9

置信度:4

將CNN濾波器與神經元匹配

題目:A rotation-equivariant convolutional neural network model of primary visual cortex

鏈接:https://openreview.net/forum?id=H1fU8iAqKX

得分:3,8,7

置信度:4,3,4

摘要:經典模型將初級視覺皮層(V1)描述爲定向選擇的線性-非線性(linear-nonlinear,LN)或能量模型的濾波器組,但這些模型無法準確預測對自然刺激的神經反應。最近的研究表明,卷積神經網絡(CNNs)可以被訓練以更準確地預測V1的活動,但是仍然不清楚V1神經元除了方向選擇性和相位不變性外,還提取哪些特徵。

這篇論文致力於通過將神經元分類爲執行類似計算的組來系統地研究V1計算。我們提出了一個基於rotation-equivariant卷積神經網絡的通用特徵識別框架,該框架能夠自動提取多個不同方向的特徵,而不依賴於單個神經元的方向選擇。

我們使用雙光子成像將這種rotation-equivariant CNN用於6000個神經元,對小鼠初級視覺皮層中記錄的自然圖像進行響應。我們證明rotation-equivariant網絡不僅優於具有相同數量的特徵映射的常規CNN,而且還揭示了V1神經元共享的許多共同特徵。我們的研究結果是邁向研究V1中非線性計算的強大新工具的第一步。

關鍵詞:rotation equivariance,equivariance,初級視覺皮層,V1,神經科學,系統識別

TL; DR:V1的rotation-equivariant CNN模型,優於先前的模型並且提示V1神經元的功能分組。

評審爭議:是將 CNN 濾波器與神經元匹配的有趣工作,對 V1 建模提出了有趣的貢獻,但rotation equivariance是否增加了神經科學的洞察力?

信息瓶頸

題目:Caveats for information bottleneck in deterministic scenarios

鏈接:https://openreview.net/forum?id=rke4HiAcY7

得分:8,6,2

置信度:4,4,4

摘要:信息瓶頸(Information bottleneck, IB)是一種從一個隨機變量X中提取信息的方法,該信息與預測另一個隨機變量Y有關。爲此,IB識別出一個的中間“瓶頸”變量T。T具有低互信息I(X;T)和高互信息 I(Y;T)。'IB曲線'表示給定 I(X;T)達到最大I(Y;T)的瓶頸變量集合。在某些情況下,Y是一個確定性函數X,包括許多監督分類場景,其中輸出類Y是輸入X的確定性函數。

當在Y是X的確定性函數的任何情況下使用IB時,我們證明了一些警告(caveats):( 1)通過不同的β值優化IB Lagrangian,不能恢復IB曲線; (2)在IB曲線的所有點上存在“無趣的”平凡解; (3)對於實現低錯誤率的多層分類器,與最近的提議相反,不同層不能在壓縮和預測之間表現出嚴格的權衡。

我們還證明,當Y是遠離X的確定性函數的小擾動時,這些問題以近似的方式出現。爲了解決問題(1),我們提出了一種函數,與IB Lagrangian不同,該函數可以在所有情況下恢復IB曲線。我們在MNIST數據集上演示了這些問題。

TL; DR:當輸出是輸入的一個確定函數時,信息瓶頸會以令人驚訝的方式出現。

關鍵詞:信息瓶頸,監督學習,深度學習,信息論

評審爭議:這項工作有趣地闡明瞭用於學習確定性規則的信息瓶頸(IB)方法的幾種反直覺行爲。 然而,我們注意到噪聲在監督學習中應用的必要性。

隨機網絡蒸餾探索

題目:Exploration by random network distillation

鏈接:https://openreview.net/forum?id=H1lJJnR5Ym

得分:4,7,10,9

置信度:4,4,4,5

摘要:我們提出了一個用於深度強化學習的探索激勵(exploration bonus),該方法易於實現,所增加的計算開支可以忽略不計。這個激勵(bonus)是一個神經網絡對其觀察特徵進行預測時所得的誤差,這個觀察特徵由另一個固定的隨機初始化的神經網絡給出。我們還提出了一種能夠將內在獎勵(rewards)和外在獎勵靈活結合的方法。我們發現,隨機網絡蒸餾(RND)激勵,再加上靈活結合內外在的獎勵,能夠在幾個很難通關的Atari遊戲中取得重大進展。我們在《蒙特祖瑪的復仇》上取得了當前最好的結果(state of the art performance)。據我們所知,這還是首次有算法在不從演示中學習,也無法獲取遊戲基本狀態的情況下,玩《蒙特祖瑪的復仇》並且超越普通人類玩家,偶爾還能通過第一關。這表明用相對簡單並且能很好擴展的方法就足以解決具有挑戰性的探索問題。

關鍵詞:強化學習,探索,好奇心

TL; DR:引入了一個簡單的探索激勵,並在第三難通關的Atari遊戲中取得了當前最好結果。

評審爭議:對於稀疏獎勵強化學習任務來說一個簡單而意外有效的內在動力(motivation),方法非常創新且富有前景;但將這篇文章與Bellemare等人的A3C agent相比較不公平;隨機網絡蒸餾激勵真的比現有策略都好用嗎?

Backpropamine:訓練具有可微分神經調節可塑性的自我修飾神經網絡

題目:Backpropamine: training self-modifying neural networks with differentiable neuromodulated plasticity

鏈接:https://openreview.net/forum?id=r1lrAiA5Ym

得分:4,5,9

置信度:4,4,4

摘要:動物大腦中令人讚歎的終身學習,主要是通過突觸連接的可塑變化實現的。重要的是,這些變化不是被動的,而是經由神經調節(neuromodulation)主動發生的,神經調節本身處於大腦的控制之下。由此產生的大腦自我修飾能力(self-modifying ability)在動物的學習和適應中起着重要的作用,並且是生物強化學習的主要基礎。在這篇論文中,我們首次演示了使用梯度下降方法,訓練這種具有神經調節可塑性的人工神經網絡。在此前關於可微分Hebbian可塑性研究的基礎上,我們提出了神經調節可塑性的微分方程。我們證明了神經調節可塑性能夠讓神經網絡在強化學習和監督學習任務中取得更好的結果。在一項任務中,一個具有數百萬參數的神經調節可塑LSTM,在基準語言建模任務上優於標準LSTM。我們得出結論認爲,可微分的神經調節可塑性爲訓練神經網絡提供了一個強大的新框架。

關鍵詞:元學習,強化學習,可塑性,神經調節,Hebbian學習,遞歸神經網絡

TL; DR:我們可以訓練神經網絡令其具備修改自身連接的能力,並以此提高它們在完成困難任務時的在線學習性能。

評審意見:思路很有趣,論證也清晰,但結果並不支持論點

RNN語言模型中的變分平滑

題目:Variational Smoothing in Recurrent Neural Network Language Models

鏈接:https://openreview.net/forum?id=SygQvs0cFQ

得分:7,6,2

置信度:4,4,5

摘要:我們提出了一種看待RNN語言模型中數據噪音(Xie等人,2017)的新理論視角。我們證明了數據噪音的每個變體都是具有特定變分分佈的貝葉斯遞歸神經網絡實例(即各種高斯函數的混合,其權重取決於從語料庫得到的統計值,例如單字組分佈)。我們由此提出了一種更具規則的(more principled)時間預測方法,並在變分框架下對數據噪音法(data noising)進行了改善。例如,我們提出了使用綁定輸入和輸出嵌入矩陣的變分平滑和逐元變分平滑方法。我們通過實驗在兩個基準語言建模數據集上驗證了我們的假設,並且證明了新方法優於現有的數據噪音方法。

評審爭議:有趣的論文,但缺乏與現有工作的比較,結果也遠非當前最佳

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章