Word Embedding News｜詞嵌入新鮮事：六月刊：GPT-3來了

這裏是 WEN（Word Embedding News）｜詞嵌入新鮮事。

作爲起步，它將基於 Sebastian Ruder NLP News 的每月篩選，聚焦詞嵌入領域。對涉及內容在本人閱讀後的基礎上進行總結、評論。不簡單複製，力求做到小而精。

關於作者：張正，座標巴黎，上班NLP，下班詞嵌入。

沒想到詞嵌入新鮮事第二期就要改變起步策略：之前說“它將基於 Sebastian Ruder NLP News [6] 的篩選，聚焦詞嵌入領域”，結果前腳說完，Sebastian 就在最新一期 NLP News 中說：

Overall, I’ve realized that trying to provide a comprehensive mix of everything that has been going on is not sustainable for me. So I’ll try to refocus ‍with this newsletter and to prioritize covering fewer things in-depth.

非常理解他的選擇，一個人想要緊跟 NLP 各個領域的最新發展，對時間和精力都是巨大的挑戰，專注於某幾個領域對個人來說是更好的選擇。

這件事對詞嵌入新鮮事的直接影響是，我不能再從這單一信息源做篩選深挖了。塞翁失馬，焉知非福，我一方面“被迫”需要蒐集閱讀更多的信息源、一方面對內容的選擇編排有了更大的自主性。希望一步一步不斷學習、優化，做得更好。

好了，下面是詞嵌入新鮮事 2020 六月刊。

6 月裏最最最重要的新鮮事是 MOJITO。除此之外，詞嵌入領域，本期重點關注三個組織：

ACL：詞嵌入研究趨勢
OpenAI：GPT3 來了
AI2：NLP Highlights 推薦

ACL 2020 之詞嵌入研究趨勢

ACL 2020 發榜不久，官方於 6 月 4 日公佈了相關統計數據。

https://acl2020.org/blog/general-conference-statistics/

單看數據，詞嵌入研究工作通常所屬的 Semantics: Lexical 中稿率與 Discourse and Pragmatics 並列倒數第一，17.9%，遠低於 22.7% 的總平均值。

如果再搭配 Trends of ACL 的動態圖，觀察 word-level semantics 變化趨勢，打擊倍增。

https://public.flourish.studio/visualisation/2431551/?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

當然，Semantics：Lexical 並不直接等同於詞嵌入研究，隨着 word embedding 在 NLP 中的廣泛應用，及 language modelling 對詞嵌入研究方向的推動，我們這裏寬泛意義上的“詞嵌入研究”越來越多地存在於不同的 track 中。

比如，在 ACL 2020 詞嵌入長文彙總分類中，僅長文就 37 篇，遠多於 Semantics：Lexcial 總錄取數 17 篇。

GPT 之野望：大力真能出奇跡？

這個月詞嵌入領域最大的新聞一定是 GPT-3，我也跟個風，從心態、技術及商業三個角度談談它的影響。

這是一個極度容易讓人“心態爆炸”的模型

CloseAI（不好意思打錯了，我是說 OpenAI）不久前“釋出”（之所以打引號是因爲目前我們只能看不能用）了 GPT-3 模型。

在 language model 競賽中，它也就“又大了一點點”吧：1750 億參數、31 位作者、72 頁論文 [7] ，訓練下來大約花了 1200 萬刀 [1]（望向腳邊機箱裏的 2080Ti：“要認清自己的能力，不要總想着在詞嵌入上搞個大新聞，EPIC Games 每週限免他不香嗎？”）。

這是一個對“大力出奇跡”有着堅定信心的技術實踐

調侃完畢，我們來簡單梳理下 GPT 貫穿始終的目的和其從 1 到 3 一路走來的發展脈絡：

總體上看，GPT 的目的一直非常明確，就是想證明“大力出奇跡”的猜想。即在大的數據集上做無監督訓練，是不是當數據大到一定程度時，就不需要在具體且繁多的下游任務上做監督、微調之類的事情了？

具體來看：

2018 年 6 月 GPT-1：大量數據（約 5GB 文本）上無監督訓練，然後針對具體任務在小的有監督數據集上做微調；關鍵詞：“scalable, task-agnostic system”；8 個 GPU 上訓練一個月；預訓練模型（1.1 億參數）可下載 [8]；

https://openai.com/blog/language-unsupervised/

2019 年 2 月 GPT-2：大量數據（約 40GB 文本）上無監督訓練，然後針對具體任務在小的有監督數據集上做微調，嘗試在一些任務上不微調（即使結果離 SOTA 還遠）；關鍵詞“without task-specific training”；據說在 256 個 Google Cloud TPU v3 上訓練，256 刀每小時，訓練時長未知 [2]；預訓練模型（15 億參數）最終公開可下載 [9] ；

https://openai.com/blog/better-language-models/

2020 年 5 月 GPT-3：大量數據（499B tokens）上無監督訓練，不微調就超越 SOTA；關鍵詞 “zero-shot, one-shot, few-shot”；訓練據說話費 1200 萬刀；1750 億參數，將會開放付費 API [10] 。

72 頁論文我既沒精力也沒心力讀下來，因此推薦這篇總結博文：

https://anotherdatum.com/gpt-3.html?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

簡單來講，GPT-3 一定程度上證明了大力真的可以出奇跡，無需 fine-tuning 就能在下游任務中“大顯神威”。GPT-3 的關注點在 zero-shot、one-shot 和 few-shot 學習，它證明了一個足夠大的模型在訓練時可以獲得更寬泛的 NLP “技能”和模式識別的能力，這些能力使它在推斷時可以迅速地適應或識別出下遊任務。

說點感性上的感受：詞嵌入、語義等的核心我認爲是 context，context 可以翻譯成“上下文”，這個翻譯用來理解 word2vec 或 language modeling 等都非常直觀。當然 context 也可以翻譯爲“語境”，語境是一個更宏大的詞，是一種對更寬泛環境的理解能力。

對於人來說，能感知並理解語境需要強大的能力，往往基於廣泛的閱讀，但人的閱讀能力總是有極限的。GPT 想證明的事情，像是人類對基於廣泛閱讀的語境理解能力的極限探索。

比起技術的成熟，它在商業上還是個“萌新”

還好 GPT-3 也不是樣樣都行，至少它在商業上還是個“萌新”，這多多少少給我們早已“爆炸”的心態帶來了些許安慰。

先來看看 OpenAI 幾個商業上的時間點：

2015 年 10 月創立；非盈利
2018 年 2 月 Musk 退出董事會
2019 年 3 月成立 OpenAI LP [3]，他們自己所謂的 “a hybrid of a for-profit and nonprofit”，這不重要，重要的是他們開始需要爲投資人的錢負責了
2019 年 7 月微軟投資 10 億刀 [4]

拿這個時間線對照 GPT 時間線，或許有助於我們從另一個角度理解 GPT 的一些選擇：

比如 GPT-2 剛官宣時的爭議。衆所周知，GPT-2 的完整模型一開始是沒有被公開的，官方博客 [11] 的解釋是：

Due to our concerns about malicious applications of the technology, we are not releasing the trained model. [5]

因爲怕這個強大的模型被濫用，官方決定公佈一個較小的模型（CloseAI 的外號就是這麼來的）。

我們看下 GPT-2 推出的時間，2019年2月。OpenAI 一個月後就改變架構、成立以盈利爲目的 OpenAI LP，5 個月後獲得微軟投資。

我們有理由相信 GPT-2 公佈時、甚至訓練時 OpenAI 非盈利的組織架構就已經快玩兒不轉了。不公佈模型，一方面是作爲非營利組織心繫天下、有社會責任感的“最後的倔強”；

另一方面也爲下一步作爲需要盈利的公司，給投資人有個交代、爭取商業合作、獲得融資等提供了想象空間（畢竟，因爲如果直接開源，GPT-2 的商業價值就極其有限了）。

到了 GPT-3 的時代，OpenAI 選擇將其作爲一個付費 API（或者說一種服務）來讓大家使用，這是 OpenAI LP 獲得微軟投資後的一步重要商業化實踐。背靠微軟這棵大樹，用 Azure 雲計算技術訓練模型（GPT-2 時代用的還是谷歌家的 TPU），基於 Azure 提供 API 服務，甚至連註冊 API 的線上問卷也用的是 Microsoft Forms。

個人認爲商業化是非常好的事情，對AI真正落地會產生積極影響。如果把金錢看作全球普遍接受的、有統一標準的評價方法，那 GPT-3 在 NLP 任務上斬獲無數 SOTA 後，下一關，就是看它在盈利能力上，是否同樣可以獲得 SOTA 了。

BTW，目前這個 API 服務還未上線，感興趣的朋友可以通過填寫這個線上問卷加入 OpenAI API Waitlist。

https://forms.office.com/Pages/ResponsePage.aspx?id=VsqMpNrmTkioFJyEllK8sx3ELsv0PEhHphhNz30FttVUNkYwTlNPMVI1V0lXNjExMlExUlc4SE5YSS4u

AI2之跨語言詞嵌入播客

說完 OpenAI 再來說說另一家“廠牌” Allen Institute for AI，aka AI2。

AI2 有一個非常好的播客叫 NLP Highlights，主持人是 Matt Gardner，Pradeep Dasigi 和 Waleed Ammar。NLP Highlights 值得聽的原因是主持人都是內行，所以不用擔心會聽到記者採訪式的外行問題。

他們第 112 期節目邀請來自 UC Berkeley 的 Steven Cao 聊了聊多語語境詞嵌入的對齊（alignment of multilingual contextual word embeddings）問題。這期播客的重點不是受訪者，反而是主持人對這一領域的觀點。

https://soundcloud.com/nlp-highlights/112-alignment-of-multilingual-contextual-representations-with-steven-cao

在 ACL 2020 詞嵌入長文彙總及分類中我們就說到，跨語言語境詞嵌入的相關研究是目前的熱點之一。

我認爲其中一個原因是，傳統跨語言詞嵌入的方法已經很成體系了，當語境詞嵌入來了後，大家不免都會思索如何把以前各種各樣的方法用過來。在 GPT 等語言模型研究越來越複雜的大環境下，跨語言語境詞嵌入研究纔剛剛開始，可以試的點子非常多，並沒有很複雜（說白了就是性價比高）。

Steven Cao的這篇文章就是這樣，“舊瓶裝新酒”，上 NLP Highlights 絕對是勇氣可嘉。

https://arxiv.org/pdf/2002.03518.pdf

個人認爲 NLP Highlights 的精華經常是在主持人的發言：

首先是主持人的轉述。不管受訪者說得多高端玄妙、抑或雲裏霧裏。主持人總能準確的轉述成“人話”，方便聽衆理解。
然後就是提問。這個博客有時候就像在線 review，問的問題很要害。

比如在這一期裏，在瞭解到作者用 IBM model 獲得一對一的詞對來做詞嵌入對齊的監督。主持人的問題便是，如果一個詞組在另一個語言裏對應的是一個詞，你這個一對一怎麼生成？

作者舉例，比如 “would like to” 在德語裏對應一個詞 X（不懂德語，就用 X 代替吧），那麼這裏的一對一發現實際上是 “like” 對 X。因爲是語境詞嵌入，因此此處的 “like” 可能某種程度上已經包含了整個詞組的含義。

主持人緊跟着就質疑，那對齊在詞級別上做會不會不是一個好主意，尤其對於語境詞嵌入，因爲不同語言中未必能在詞級別上找到一對一的語境對應。後面又提到作者的方法之所以效果好，也可能是作者用的平行語料基本上是基於逐詞翻譯的，跟數據有很大關係。

這集博客的核心討論點圍繞在爲什麼要在詞級別上做，這是非常值得討論的問題，不能因爲以前傳統詞嵌入詞級別上的對齊工作很多，就自然而然覺得語境詞嵌入也要在詞級別上做。

可能從主持的角度來說主持人不應該太強勢或過於主導，但是從學術探討的角度來說，這個博客就像 open live review，非常有趣。

除此之外，我個人在本月也終於完成了 word2vec 的第三篇介紹，word2vec 算是告一段落了。

以上是詞嵌入新鮮事六月刊（總第二期），麻煩給我的讀者來一杯 mojito。

Stay 微醺. Stay Foolish.

參考鏈接

[1] https://venturebeat.com/2020/06/01/ai-machine-learning-openai-gpt-3-size-isnt-everything/

[2] https://www.theregister.com/2019/02/14/open_ai_language_bot/

[3] https://openai.com/blog/openai-lp/

[4] https://openai.com/blog/microsoft/

[5] https://openai.com/blog/better-language-models/

6] http://newsletter.ruder.io

[7] https://arxiv.org/abs/2005.14165

[8] https://github.com/openai/finetune-transformer-lm

[9] https://github.com/openai/gpt-2-output-dataset

[10] https://forms.office.com/Pages/ResponsePage.aspx?id=VsqMpNrmTkioFJyEllK8sx3ELsv0PEhHphhNz30FttVUNkYwTlNPMVI1V0lXNjExMlExUlc4SE5YSS4u

[11] https://openai.com/blog/better-language-models/

更多閱讀

#投稿通道#

讓你的論文被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者羣體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成爲一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術乾貨。我們的目的只有一個，讓知識真正流動起來。

???? 來稿標準：

• 稿件確係個人原創作品，來稿需註明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）

• 如果文章並非首發，請在投稿時提醒並附上所有已發佈鏈接

• PaperWeekly 默認每篇文章都是首發，均會添加“原創”標誌

???? 投稿郵箱：

• 投稿郵箱：[email protected]

• 所有文章配圖，請單獨在附件中發送

• 請留下即時聯繫方式（微信或手機），以便我們在編輯發佈時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公衆號後臺點擊「交流羣」，小助手將把你帶入 PaperWeekly 的交流羣裏。

Word Embedding News｜詞嵌入新鮮事：六月刊：GPT-3來了

ACL 2020 之詞嵌入研究趨勢

GPT 之野望：大力真能出奇跡？

這是一個極度容易讓人“心態爆炸”的模型

這是一個對“大力出奇跡”有着堅定信心的技術實踐

比起技術的成熟，它在商業上還是個“萌新”

AI2之跨語言詞嵌入播客

更深的編碼器+更淺的解碼器=更快的自迴歸模型

泛化性亂彈：從隨機噪聲、梯度懲罰到虛擬對抗訓練

論文盤點：GAN生成對抗樣本的方法解析

WWW 2020 | 信息檢索中基於上下文的文本詞項權重生成

論文盤點：基於圖卷積GNN的多目標跟蹤算法解析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結