1.人類語言的聲音:語音和語音學
- 語音是聲音流–毫無爭議的“物理”
- 語音學假設一小部分或幾組獨特的類別單元:音素或獨特特徵
- 也許是普遍的類型學,但特定語言的實現
- 類別感知的最佳證據來自語音學
- 音素內差異縮小;音素間放大
形態:詞的一部分
- 傳統上,我們把語素作爲最小的語義單元
- [[un [[fortun(e)] ROOT ate] STEM] STEM ly] WORD
- 深度學習:形態學研究很少;
一次嘗試遞歸神經網絡是(Luong,Socher,&Manning 2013)
<一種處理較大詞彙量的可能方法-最看不見的單詞是新的形態形式(或數字)>
形態學
- 一個簡單的替代方法是使用字符n-gram
- Wickelphones(Rumelhart&McClelland 1986)
- 微軟的DSSM(Huang,He,Gao,Deng,Acero和Hect 2013)
- 有關使用卷積層的想法
- 可以更輕鬆地提供語素的許多好處嗎?
書寫系統中的單詞
寫作系統在表達單詞的方式上有所不同-或不
- 沒有分詞 例:美國關島國際機場及其辦公室均接獲
- 單詞(主要)分爲:This is a sentence with words
-
批評家?
- 分開的 Je vous ai apporté des bonbons
- 已加入 ف+ قال+ نا+ ھا = فقلناھا = so+said+we+it
-
化合物?
- 分開的 life insurance company employee
- 已加入 Lebensversicherungsgesellschaftsangestellter
-
單詞級別下的模型
- 需要處理 large,openvocabulary
-
豐富的形態:nejneobhospodařovávatelnějšímu
(“to the worst farmable one”) -
音譯:Christopher Kryštof
-
非正式拼寫:
-
字符級別下的模型
1.單詞嵌入可以由字符嵌入組成
- 爲未知單詞生成嵌入
- 相似的拼寫共享相似的嵌入
- 解決OOV問題
2.可以將連接的語言當作字符來處理兩種方法都已證明非常成功!
- 令人驚訝的是-傳統上,音素/字母不是語義單位-但是DL模型組成了組
文字下方:書寫系統
大多數深度學習NLP的工作都是從書面形式的語言開始的-它是易於處理的發現數據
但是人類語言寫作系統不是一回事!
音位(也許有字) | jiyawu ngabulu | Wambaya |
僵化音素 | thorough failure | English |
音節/摩拉 | ᑐᖑᔪᐊᖓᔪᖅ | Inuktitut |
表意文字(音節符號) | 去年太空船二號墜毀 | Chinese |
結合以上 | インド洋の島 | Japanese |
2. 純字符級模型
- Wesawone很好的例子,用於句子分類的字符級模型
- 非常深的卷積網絡用於文本分類
- Conneau,Schwenk,Lecun,Barrault,EACL 2017
- 通過深度卷積堆棧獲得強大結果
純字符級NMT模型
-最初表現不理想•(Vilar等,2007; Neubig等,2013)
- 僅解碼器
- (鍾俊英,趙慶gh,Yoshua Bengio。arXiv
2016)。 - 有希望的結果
- (Wang Ling,Isabel Trancoso,Chris Dyer,Alan Black,arXiv 2015)
- (Thang Luong,Christopher Manning,ACL 2016)
- (Marta R.Costa-Jussà,JoséA. R. Fonollosa,ACL 2016)
英語-捷克語WMT 2015成績
- LuongandManning測試了基準基線純字符級seq2seq(LSTM)NMT系統
- 針對關鍵字級別的基準進行了有效處理
- Butitwasssllooooww
- 3個星期的訓練...在運行時不是那麼快
英語-捷克語WMT 2015示例
無需顯式細分的全字符級神經機器翻譯
Jason Lee,Kyunghyun Cho,Thomas Hoffmann。 2017.編碼器如下; 解碼器是字符級GRU
在LSTM seq2seq模型中具有深度的更強字符結果
回顧基於字符的神經機器翻譯的能力和壓縮。 2018.Cherry,Foster,Bapna,Firat,Macherey,Google AI
3. 子詞模型:兩種趨勢
- 與詞級模型相同的體系結構:
- 但是使用較小的單位:“單詞”
- [Sennrich,Haddow,Birch,ACL’16a],[Chung,Cho,Bengio,ACL’16]。
- 混合架構:
- 主模型有文字; 角色的其他東西
- [Costa-Jussà&Fonollosa,ACL’16],[Luong&Manning,ACL’16]。
字節對編碼
- 最初是壓縮算法:
- 最頻繁的字節對一個新字節。
Rico Sennrich,Barry Haddow和Alexandra Birch。 具有子詞單位的稀有詞的神經機器翻譯。 ACL 2016。
https://arxiv.org/abs/1508.07909 https://github.com/rsennrich/subword-nmt https://github.com/EdinburghNLP/nematus
- 分詞算法:
- 雖然是自底向上的聚類
- 以數據中所有(Unicode)字符的字母組合詞表開頭
- 最常見的ngram對一個新的ngram
- 分詞算法:
- 從字符詞彙開始
-
最常見的ngram對一個新的ngram
↓
↓
↓
↓
- 達到目標詞彙量大小並在您到達時停止
- 確定性最長的單詞分段
- 使用某些先前的標記器(通常是用於MT的Moses標記器)識別的單詞進行細分
- 自動決定vocabforsystem
- 不再以傳統方式強烈“用詞”
https://github.com/rsennrich/nematus
- 不再以傳統方式強烈“用詞”
字詞/句子模型
- GoogleNMT(GNMT)使用以下版本
- V1:字詞模型
- V2:句子模型
- Ratherthancharn-gramcount,使用貪婪近似來最大化語言模型的對數可能性以選擇片段
- 添加最大程度減少困惑的n-gram
- 單詞模型對內單詞進行標記
- 句子模型來自原始文本
- 空格保留爲特殊標記(_)並正常分組
- 您可以通過連接片段並將它們重新編碼爲空格來結束事物
- https://github.com/google/sentencepiece
- https://arxiv.org/pdf/1804.10959.pdf
- BERT使用字詞模型的變體
- (相對)常用詞在詞彙表中:
- 1910年代,費爾法克斯
- 其他單詞是由單詞構成的:
- hypatia = h ## yp ## ati ## a
如果您以其他方式使用BERT
基於模型,您必須處理
- hypatia = h ## yp ## ati ## a
4. 字符級以構建詞級學習詞級表示形式
語音標記(Dos Santos和Zadrozny 2014)
- 卷積字符以生成單詞嵌入
- 修復了用於PoS標記的詞嵌入窗口
基於字符的LSTM構建單詞表示
基於字符的LSTM
技術方法
字符感知神經語言模型
Yoon Kim,Yacine Jernite,David Sontag,Alexander M.Rush,2015年
更爲複雜/複雜的方法
- 推導適用於多種語言的強大而強大的語言模型。
- 編碼子詞相關性:事件,事件,事件...
- 解決現有模型的稀有字問題。
- 以更少的參數獲得可比的表現力。
卷積層
- 在字符級輸入上進行卷積。
- 隨時間變化的最大池化(有效地選擇n-gram)。
公路網(Srivastava et al.2015)
- 模擬n-gram交互。
- 在保留原始信息的同時進行轉換。
- 功能類似於LSTM存儲單元。
長短期記憶網絡
- 分層Softmax,用於處理大量輸出詞彙。
- 通過截斷的反向傳播進行訓練。
定量結果
定性見解
外賣
- 論文質疑使用詞嵌入作爲神經語言建模輸入的必要性。
- 字符上方的CNN +高速公路網絡可以提取豐富的語義和結構信息。
- 關鍵思想:您可以構成“構建基塊”以獲得細微而強大的模型!
混合NMT
- 兩全其美的架構:
- 主要在單詞級別進行翻譯
- 僅在需要時進入角色級別
- 對複製機制進行了超過2種BLEU改進,以嘗試填寫稀有詞
2級解碼
- 單詞級光束搜索
- 單詞級光束搜索
- 字符級光束搜索<unk>
英語和捷克語的結果
- 訓練WMT’15數據(1200萬個句子對)
- newstest2015
樣本英語-捷克語翻譯
- Char-based:錯誤的名字翻譯
-
Word-based:不正確的對齊
-
Char-based&hybrid:diagnózen的正確翻譯
-
基於單詞:身份複製失敗
- hybrid:正確,11-year-old – jedenáctiletá
- 錯誤:Shani Bartová
5. 單詞嵌入的字符
詞嵌入和詞形態的聯合模型
(Cao and Rei 2016)
- 與w2v相同的目標,但使用字符
- 雙向LSTM計算嵌入
- 模型嘗試捕獲形態
- 模型可以推斷出詞根
FastText embeddings
使用子詞信息Bojanowski,Grave,Joulin和Mikolov豐富詞向量。 公平。 2016。
https://arxiv.org/pdf/1607.04606.pdf
https://fasttext.cc
- 目標:高效的類似於word2vec的單詞表示庫,但更適合具有多種形態的稀有單詞和語言
- w2v跳過語法模型的擴展,包含字符n-gram
- 用邊界符號和整個單詞表示的單詞表示爲charcharn-gram:
- where = <wh,whe,her,ere,re>,<where>
- 請注意,<her>或<her與她不同
- 前綴,後綴和整個單詞都很特殊
- 請注意,<her>或<her與她不同
- 代表這些表示的詞。
上下文分數中的單詞爲:- 細節:不是共享所有n-gram的表示,而是使用“哈希技巧”來固定向量個數
單詞相似性數據集得分(相關性)
- 稀有詞的差別收益
Reference:https://www.jianshu.com/p/57eef6923aef