Task 3: Subword Models

原創

2020-07-04 00:11

1.人類語言的聲音：語音和語音學

語音是聲音流–毫無爭議的“物理”
語音學假設一小部分或幾組獨特的類別單元：音素或獨特特徵
也許是普遍的類型學，但特定語言的實現
類別感知的最佳證據來自語音學
- 音素內差異縮小；音素間放大

形態：詞的一部分

傳統上，我們把語素作爲最小的語義單元
[[un [[fortun（e）] ROOT ate] STEM] STEM ly] WORD
深度學習：形態學研究很少；
一次嘗試遞歸神經網絡是（Luong，Socher，＆Manning 2013）

<一種處理較大詞彙量的可能方法-最看不見的單詞是新的形態形式（或數字）>

形態學

一個簡單的替代方法是使用字符n-gram
Wickelphones（Rumelhart＆McClelland 1986）
微軟的DSSM（Huang，He，Gao，Deng，Acero和Hect 2013）
有關使用卷積層的想法
可以更輕鬆地提供語素的許多好處嗎？

書寫系統中的單詞

寫作系統在表達單詞的方式上有所不同-或不

沒有分詞例：美國關島國際機場及其辦公室均接獲
單詞（主要）分爲：This is a sentence with words
- 批評家？
  - 分開的 Je vous ai apporté des bonbons
  - 已加入 ف+ قال+ نا+ ھا = فقلناھا = so+said+we+it
- 化合物？
  - 分開的 life insurance company employee
  - 已加入 Lebensversicherungsgesellschaftsangestellter

單詞級別下的模型

需要處理 large,openvocabulary
- 豐富的形態：nejneobhospodařovávatelnějšímu
  (“to the worst farmable one”)
- 音譯：Christopher Kryštof
- 非正式拼寫：

字符級別下的模型

1.單詞嵌入可以由字符嵌入組成

爲未知單詞生成嵌入
相似的拼寫共享相似的嵌入
解決OOV問題

2.可以將連接的語言當作字符來處理兩種方法都已證明非常成功！

令人驚訝的是-傳統上，音素/字母不是語義單位-但是DL模型組成了組

文字下方：書寫系統

大多數深度學習NLP的工作都是從書面形式的語言開始的-它是易於處理的發現數據
但是人類語言寫作系統不是一回事！


音位（也許有字）	jiyawu ngabulu	Wambaya
僵化音素	thorough failure	English
音節/摩拉	ᑐᖑᔪᐊᖓᔪᖅ	Inuktitut
表意文字（音節符號）	去年太空船二號墜毀	Chinese
結合以上	インド洋の島	Japanese

2. 純字符級模型

Wesawone很好的例子，用於句子分類的字符級模型
非常深的卷積網絡用於文本分類
Conneau，Schwenk，Lecun，Barrault,EACL 2017
通過深度卷積堆棧獲得強大結果

純字符級NMT模型

-最初表現不理想•（Vilar等，2007； Neubig等，2013）

僅解碼器
（鍾俊英，趙慶gh，Yoshua Bengio。arXiv
2016）。
有希望的結果
（Wang Ling，Isabel Trancoso，Chris Dyer，Alan Black，arXiv 2015）
（Thang Luong，Christopher Manning，ACL 2016）
（Marta R.Costa-Jussà，JoséA. R. Fonollosa，ACL 2016）

英語-捷克語WMT 2015成績

LuongandManning測試了基準基線純字符級seq2seq（LSTM）NMT系統
針對關鍵字級別的基準進行了有效處理
Butitwasssllooooww
- 3個星期的訓練...在運行時不是那麼快

英語-捷克語WMT 2015示例

無需顯式細分的全字符級神經機器翻譯

Jason Lee，Kyunghyun Cho，Thomas Hoffmann。 2017.編碼器如下；解碼器是字符級GRU

在LSTM seq2seq模型中具有深度的更強字符結果

回顧基於字符的神經機器翻譯的能力和壓縮。 2018.Cherry，Foster，Bapna，Firat，Macherey，Google AI

3. 子詞模型：兩種趨勢

與詞級模型相同的體系結構：
但是使用較小的單位：“單詞”
[Sennrich，Haddow，Birch，ACL’16a]，[Chung，Cho，Bengio，ACL’16]。
混合架構：
主模型有文字；角色的其他東西
[Costa-Jussà＆Fonollosa，ACL’16]，[Luong＆Manning，ACL’16]。

字節對編碼

最初是壓縮算法：
- 最頻繁的字節對一個新字節。

Rico Sennrich，Barry Haddow和Alexandra Birch。具有子詞單位的稀有詞的神經機器翻譯。 ACL 2016。
https://arxiv.org/abs/1508.07909 https://github.com/rsennrich/subword-nmt https://github.com/EdinburghNLP/nematus

分詞算法：
雖然是自底向上的聚類
以數據中所有（Unicode）字符的字母組合詞表開頭
最常見的ngram對一個新的ngram

分詞算法：
從字符詞彙開始
最常見的ngram對一個新的ngram
↓

↓

↓

↓

達到目標詞彙量大小並在您到達時停止
確定性最長的單詞分段
使用某些先前的標記器（通常是用於MT的Moses標記器）識別的單詞進行細分
自動決定vocabforsystem
- 不再以傳統方式強烈“用詞”
  https://github.com/rsennrich/nematus

字詞/句子模型

GoogleNMT（GNMT）使用以下版本
- V1：字詞模型
- V2：句子模型
Ratherthancharn-gramcount，使用貪婪近似來最大化語言模型的對數可能性以選擇片段
- 添加最大程度減少困惑的n-gram
單詞模型對內單詞進行標記
句子模型來自原始文本
- 空格保留爲特殊標記（_）並正常分組
- 您可以通過連接片段並將它們重新編碼爲空格來結束事物
- https://github.com/google/sentencepiece
- https://arxiv.org/pdf/1804.10959.pdf
BERT使用字詞模型的變體
（相對）常用詞在詞彙表中：
- 1910年代，費爾法克斯
其他單詞是由單詞構成的：
- hypatia = h ## yp ## ati ## a
  如果您以其他方式使用BERT
  基於模型，您必須處理

4. 字符級以構建詞級學習詞級表示形式

語音標記（Dos Santos和Zadrozny 2014）

卷積字符以生成單詞嵌入
修復了用於PoS標記的詞嵌入窗口

基於字符的LSTM構建單詞表示

基於字符的LSTM

技術方法

字符感知神經語言模型

Yoon Kim，Yacine Jernite，David Sontag，Alexander M.Rush，2015年
更爲複雜/複雜的方法

推導適用於多種語言的強大而強大的語言模型。
編碼子詞相關性：事件，事件，事件...
解決現有模型的稀有字問題。
以更少的參數獲得可比的表現力。

卷積層

在字符級輸入上進行卷積。
隨時間變化的最大池化（有效地選擇n-gram）。

公路網（Srivastava et al.2015）

模擬n-gram交互。
在保留原始信息的同時進行轉換。
功能類似於LSTM存儲單元。

長短期記憶網絡

分層Softmax，用於處理大量輸出詞彙。
通過截斷的反向傳播進行訓練。

定量結果

定性見解

外賣

論文質疑使用詞嵌入作爲神經語言建模輸入的必要性。
字符上方的CNN +高速公路網絡可以提取豐富的語義和結構信息。
關鍵思想：您可以構成“構建基塊”以獲得細微而強大的模型！

混合NMT

兩全其美的架構：
主要在單詞級別進行翻譯
僅在需要時進入角色級別
對複製機制進行了超過2種BLEU改進，以嘗試填寫稀有詞

2級解碼

單詞級光束搜索

單詞級光束搜索
字符級光束搜索<unk>

英語和捷克語的結果

訓練WMT’15數據（1200萬個句子對）
- newstest2015

樣本英語-捷克語翻譯

Char-based:錯誤的名字翻譯

Word-based:不正確的對齊
Char-based&hybrid:diagnózen的正確翻譯
基於單詞：身份複製失敗

hybrid：正確,11-year-old – jedenáctiletá
錯誤：Shani Bartová

5. 單詞嵌入的字符

詞嵌入和詞形態的聯合模型
（Cao and Rei 2016）

與w2v相同的目標，但使用字符
雙向LSTM計算嵌入
模型嘗試捕獲形態
模型可以推斷出詞根

FastText embeddings

使用子詞信息Bojanowski，Grave，Joulin和Mikolov豐富詞向量。公平。 2016。
https://arxiv.org/pdf/1607.04606.pdf
https://fasttext.cc

目標：高效的類似於word2vec的單詞表示庫，但更適合具有多種形態的稀有單詞和語言
w2v跳過語法模型的擴展，包含字符n-gram
用邊界符號和整個單詞表示的單詞表示爲charcharn-gram：
where = <wh，whe，her，ere，re>，<where>
- 請注意，<her>或<her與她不同
  - 前綴，後綴和整個單詞都很特殊
代表這些表示的詞。
上下文分數中的單詞爲：
- 細節：不是共享所有n-gram的表示，而是使用“哈希技巧”來固定向量個數

單詞相似性數據集得分（相關性）

稀有詞的差別收益

Reference：https://www.jianshu.com/p/57eef6923aef

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章