Contextual Word Embeddings

最想學習哪些內容，彙總如下：

變壓器（Transformers）
BERT
問題解答（QA）
文本生成和摘要

預訓練的詞向量：早年的Collobert，Weston等人，2011成績

預訓練的詞向量：當前（2014 -）

我們可以從隨機詞向量開始，然後在我們感興趣的方面進行訓練。
但在很多時候，使用預訓練的詞向量會有所幫助，因爲我們可以在更多數據上進行訓練以獲得更多詞
Chen和Manning（2014）依賴性解析
隨機：均勻（-0.01，0.01）•- - 預訓練：
- PTB（C＆W）：+ 0.7％
- CTB（word2vec）：+ 1.7％

用詞向量識別生詞

最簡單和常見的解決方案：
訓練時間: Vocab is {words occurring, say, ≥ 5 times} ∪ {<UNK>}
映射所有稀少（<5）的字到<UNK>，訓練爲一個字向量
運行時間：當out-of-vocabulary（OOV）字出現時，使用<UNK>
問題：
- 不論身份或含義如何，都無法區分不同的UNK詞
解決方案：

我們剛剛學習了用於構建向量的char級模型！
- 特別是在諸如問答之類的應用中
  - 單詞標識匹配的重要位置（甚至單詞矢量詞彙之外的單詞）

2.嘗試這些技巧（來自Dhingra，Liu，Salakhutdinov和Cohen，2017年）
- a. 在測試時間內，如果<UNK>字出現在無監督的嵌入字裏，就在測試時間內使用該向量。
- b. 另外換句話說，只需給他們分配一個隨機向量，將它們添加到您的詞彙表中。

a. 絕對有很大幫助； b. 可能會有所幫助
您可以嘗試的另一件事：
- 將東西組裝成單詞類（例如，未知數，大寫的東西等），並且每個裏都有一個<UNK-class>

1. 怎樣描述一個詞？

到目前爲止，基本上我們已經說過我們有一種描述詞的方法：
- 在一開始就學過的詞向量
  - Word2vec，GloVe，fastText
這些有兩個問題：
- 對於單詞類型，始終使用相同的表示形式，而不考慮單詞標記出現的上下文
  - 我們可能希望細粒度的詞義消除歧義
- 我們只用一個詞來表示，但是詞有不同的方面，包括語義，句法行爲和註冊/內涵

我們一直都有解決這個問題的辦法嗎？

在一個NLM中，我們立即通過LSTM層插入單詞向量（也許僅在語料庫上訓練）
這些LSTM層經過訓練可以預測下一個單詞
但是這些語言模型在每個位置都產生了上下文特定的單詞表示形式！

2. Peters等（2017年）：TagLM –“Pre-ELMo”

https://arxiv.org/pdf/1705.00108.pdf

想法：希望在上下文中使用單詞的含義，但通常僅在帶有小任務標籤的數據（例如NER）上學習任務RNN ）
爲什麼不做半監督方法，在大型的未標記語料庫上訓練NLM（不僅僅是單詞向量）？

Tag LM

命名實體識別（NER）

NLP的一個非常重要的子任務：例如，在文本中查找和分類名稱：

獨立議員安德魯·威爾基（Andrew Wilkie）決定撤回對少數黨工黨政府的支持，這聽起來很引人注目，但不應進一步威脅其穩定性。 2010年大選後，威爾基，羅伯·奧克肖特，託尼·溫莎和綠黨同意支持工黨時，他們只提供了兩項保證：信心和供給。

彼得斯等（2017）：TagLM –“Pre-ELMo”

語言模型在“十億個單詞基準”的八億個訓練單詞上進行訓練
語言模型觀察

接受過監督數據培訓的LM並沒有幫助
雙向LM僅能向前推進約0.2
巨大的LM設計（ppl 30）可以將較小的模型（ppl 48）減少0.3
特定於任務的BiLSTM觀察
僅使用LM嵌入來預測效果不好：88.17 F1
遠低於僅對標籤數據使用BiLSTM標記器

同樣在空中：McCann等（2017年）

https://arxiv.org/pdf/1708.00107.pdf

還具有使用訓練好的序列模型爲其他NLP模型提供上下文的想法
想法：機器翻譯旨在保留含義，也許這是一個好目標？
使用作爲seq2seq +注意NMT系統的編碼器的2層bi-LSTM作爲上下文提供者
在各種任務上，生成的CoVe向量的性能均優於GloVe向量
但是，結果並沒有其他幻燈片中介紹的更簡單的NLM培訓那樣強大，因此似乎被放棄了
也許NMT比語言建模更難？
也許有一天這個想法會回來嗎？

彼得斯等（2018）：ELMo：語言的嵌入模型

深度上下文化的單詞表示形式。 NAACL 2018.https：//arxiv.org/abs/1802.05365

單詞標記向量或上下文單詞向量的突破版本
使用長上下文而不是上下文窗口來學習單詞標記向量（此處，整個句子可能更長）
學習深入的Bi-NLM並將其所有層用於預測

彼得斯等（2018）：ELMo：語言模型的嵌入模型

訓練雙向LM
針對績效較高的LM，但不要過大：
使用2個biLSTM層
使用字符CNN構建初始單詞表示（僅）
2048剋剋過濾器和2個高速公路層，512d投影
用戶4096個暗淡隱藏/單元格LSTM狀態和512個暗淡
下一個輸入的投影
使用剩餘連接
綁定令牌輸入和輸出（softmax）的參數，並將其綁定在前向和後向LM之間

彼得斯等（2018）：ELMo：語言的嵌入模型

ELMo學習特定任務的biLM表示形式的組合
這是一項創新，僅在使用LSTM堆棧的頂層時有所改進

可將ELMo的總體實用性擴展到任務；
是softmax-normalized混合模型權重

彼得斯等（2018）：ELMo：與任務配合使用

首先運行biLM以獲取每個單詞的表示形式
然後讓（任何）最終任務模型使用它們
凍結ELMo的重量以用於監督模型
將ELMo權重連接到特定於任務的模型中•詳細信息取決於任務
連接到中間層，以實現標記LM典型
可以在產生輸出時再次提供EL更多表示，例如在問題回答系統中

序列標記器中使用的ELMo

CoNLL 2003命名實體識別（en news testb）

ELMo結果：適用於所有任務

ELMo：圖層權重

兩個biLSTM NLM層具有不同的用途/含義•較低的層更適合較低層的語法等。
詞性標記，句法依賴性，NER•較高的層更適合較高級別的語義
情感，語義標籤，問題回答，SNLI
這看起來很有趣，但是看起來似乎更有趣
它如何通過兩層以上的網絡來實現

周圍還有：ULMfit

Howard and Ruder（2018）通用語言模型微調，用於文本分類。 https://arxiv.org/pdf/1801.06146.pdf

轉讓NLM知識的一般思路
適用於文本分類

ULMfit

在大型通用領域語料庫上訓練LM（使用biLM）在目標任務數據上調整LM
微調爲目標任務的分類器

ULMfit重點

使用大小適中的“ 1 GPU”語言模型不是真正龐大的模型在LM微調中要多加註意
每層學習率不同
傾斜的三角形學習率（STLR）進度表學習分類器時，使用層級[h＃，maxpool +，meanpool +]進行分類時逐步分層和STLR

ULMfit性能

文本分類器錯誤率

ULMfit轉移學習

讓我們擴大規模！

GPT-2語言模型（精選）輸出

系統提示（人爲寫）
模型完成（機器編寫，10條）
在一個令人震驚的發現中，科學家發現了一羣獨角獸，它們生活在安第斯山脈一個偏遠的，以前未被開發的山谷中。令研究人員更加驚訝的是，獨角獸會說完美的英語。
這位科學家以其獨特的號角Ovid的獨角獸命名了這個種羣。這些四角銀白色獨角獸以前是科學界所不知道的。
現在，在將近兩個世紀之後，終於解決了引發這種奇怪現象的謎團。
拉巴斯大學（University of La Paz）的進化生物學家豪爾赫·佩雷斯（JorgePérez）博士和幾位同伴在安第斯山脈發現一個沒有其他動物或人類的小山谷時正在探索。佩雷斯注意到該山谷似乎是一個天然噴泉，周圍環繞着兩個岩石和銀色雪峯。
佩雷斯和其他人然後進一步冒險進入山谷。 ...

變壓器模型

所有這些模型都是Transformer體系結構模型...所以也許我們最好了解一下Transformers？

4. 變壓器的動力

我們想要並行化，但RNN本質上是順序的

儘管有GRU和LSTM，但RNN仍需要注意機制來處理遠距離依賴關係–狀態之間的路徑長度會隨着序列的增長而增加
但是，如果注意力使我們能夠進入任何狀態……也許我們可以只使用注意力而無需RNN？

變壓器概述

注意就是您所需要的。 2017.阿斯瓦尼（Aswani），Shazeer，Parmar，Uszkoreit，Jones，Gomez，Kaiser，Polosukhin https://arxiv.org/pdf/1706.03762.pdf

非循環序列到序列編碼器-解碼器模型
任務：具有平行語料庫的機器翻譯
預測每個翻譯的單詞
最終成本/誤差函數是softmax分類器之上的標準交叉熵誤差

變壓器基礎

自己瞭解變壓器？
重要推薦資源：
http://nlp.seas.harvard.edu/2018/04/03/attention.html•TheAnnotatedTransformerbySashaRush
使用PyTorch的Jupyter筆記本可以解釋所有內容！
- 現在：讓我們定義基本的構建基塊
  變壓器網絡：首先，新的關注層！