ICLR2020 NLP優秀論文分享（附源碼）

原創

数据派THU

2020-06-13 00:11

來源：知乎

https://zhuanlan.zhihu.com/p/139069973

作者：清華阿羅

本文長度爲1500字，建議閱讀5分鐘

爲你分享ICLR2020 NLP優秀論文。

1.REFORMER：THE EFFICIENT TRANSFORMER[1]

論文小結：作者提出了一種新的轉換器模型，對體系架構進行了兩項重大改進：1）使用可逆層以防止需要存儲所有層的激活來進行反向傳播；2）使用局部敏感哈希來估算耗時間的softmax計算。該Reformer的性能與SOTA Transformer模型相當，但內存效率更高，長序列的速度更快。

代碼地址：google/trax

2.ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations[2]

論文小結：ALBERT是BERT的擴展，它試圖回答一個問題，即較大的模型是否可以解決NLP任務？Albert通過跨層參數共享獲得SOTA結果。通過共享參數，ALBERT可以變小並具有相似的性能。採用更多參數，ALBERT的表現更好，但其訓練速度仍比BERT快。當訓練時間相同，ALBERT的表現要好於BERT。這些結果表明單純構建更復雜、更大、更深的模型並不總是提高模型性能的最佳方法。

代碼地址：google-research/albert

3.ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators[3]

論文小結： 預訓練語言模型的常見操作是mask輸入，並讓模型預測被mask的內容。本文介紹了一種稱爲令牌檢測的新的預訓練方法。在新方法中，作者從生成器中採樣來替代某些令牌，然後訓練一個鑑別器來預測生成器是否替換了輸入中的每個令牌。論文操作方法的數據效率更高，比以往方法提高了約15％。它表明在如何訓練語言模型方面還有更多的創造空間。

代碼地址：github.com/google-resea

4.Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue[4]

論文小結：本文提出了一種用於開放域對話知識選擇的新方法，稱爲序列隱模型，該模型將知識歷史表示爲某種隱表示。這樣做是因爲跟蹤知識歷史記錄可減少因會話的知識選擇差異而引起的歧義，但也可以幫助更好地使用信息反饋。這項工作表明，改進知識選擇可以大大提高響應生成質量。這對構建更強大的對話應用程序產生影響。

代碼地址：bckim92/sequential-knowledge-transformer

5.A Probabilistic Formulation of Unsupervised Text Style Transfer[5]

論文小結：作者提出一種無監督文本樣式轉換的概率模型。該方法大致想法是通過使用來自兩個域的非並行數據作爲部分觀察到的並行語料庫。作者提出的模型可以學習將序列從一個域轉換爲另一域。通過生成並行隱序列，模型能以無監督的方式學習該序列。文章表明在無監督的情感轉換、作者模仿和機器翻譯等領域取得效果。本文介紹的方法不需要成對的訓練數據，這使得數據收集更加容易。

代碼地址：github.com/cindyxinyiwa

6.The Curious Case of Neural Text Degeneration[6]

論文小結：論文作者提出了一種新的解碼策略，即核心採樣、同時截去尾部概率分佈，從包含絕大多數概率質量的令牌動態核中採樣。與直覺相反的經驗觀察結果是，即使針對多樣語言理解任務，使用似然作爲訓練目標能提供高模型質量，但作爲解碼目標，似然會導致文本理解乏味且重複。論文表明即使在最新的語言模型中，文本退化也是一個問題。對於各種NLP任務，解碼策略對於類人的文本生成很重要。去掉beam search之類的貪婪算法將有助於執行下游任務。

代碼地址：ari-holtzman/degen

7.What Can Neural Networks Reason About[7]

論文小結： 本文介紹了一種稱爲算法alignment的框架，用於評估神經網絡在推理任務上的表現。與已知算法解決方案作align的神經網絡能夠更好地學習這些解決方案。該框架大致認爲，要使模型能夠學習併成功地概括推理任務，它需要簡單學習（近似）推理任務的步驟。作者提出圖神經網絡非常適合，因此可以學習解決動態編程問題。這是一篇晦澀的理論論文，解釋了人們一直在憑直覺做出的架構選擇，併爲以後研究並探索新架構來更好地適應機器學習任務奠定基礎。

代碼地址：github.com/NNReasoning/

參考

https://arxiv.org/pdf/2001.04451.pdf
https://arxiv.org/pdf/1909.11942.pdf
https://arxiv.org/pdf/2003.10555.pdf
https://arxiv.org/pdf/2002.07510.pdf
https://arxiv.org/pdf/2002.03912.pdf
https://arxiv.org/pdf/1904.09751.pdf
https://arxiv.org/pdf/1905.13211.pdf

編輯：文婧

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

ICLR2020 NLP優秀論文分享（附源碼）

爲你分享ICLR2020 NLP優秀論文。

參考

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

獨家 | 無人駕駛項目實戰：使用OpenCV進行實時車道檢測

AI技術重現的老北京原聲影像又火了，網友：這口音太過真實

資源推薦 | 知識圖譜頂會文獻集錦（附鏈接）

收藏 | 計算機網絡基礎知識總結

起底滴滴數據科學團隊：面對超複雜線下場景，要數據驅動，但拒絕“唯數據論”...

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結