Task 3: Subword Models

1.人類語言的聲音:語音和語音學


  • 語音是聲音流–毫無爭議的“物理”
  • 語音學假設一小部分或幾組獨特的類別單元:音素或獨特特徵
  • 也許是普遍的類型學,但特定語言的實現
  • 類別感知的最佳證據來自語音學
    • 音素內差異縮小;音素間放大

形態:詞的一部分


  • 傳統上,我們把語素作爲最小的語義單元
  • [[un [[fortun(e)] ROOT ate] STEM] STEM ly] WORD
  • 深度學習:形態學研究很少;
    一次嘗試遞歸神經網絡是(Luong,Socher,&Manning 2013)

<一種處理較大詞彙量的可能方法-最看不見的單詞是新的形態形式(或數字)>

形態學


  • 一個簡單的替代方法是使用字符n-gram
  • Wickelphones(Rumelhart&McClelland 1986)
  • 微軟的DSSM(Huang,He,Gao,Deng,Acero和Hect 2013)
  • 有關使用卷積層的想法
  • 可以更輕鬆地提供語素的許多好處嗎?

書寫系統中的單詞


寫作系統在表達單詞的方式上有所不同-或不

  • 沒有分詞 例:美國關島國際機場及其辦公室均接獲
  • 單詞(主要)分爲:This is a sentence with words
    • 批評家?

      • 分開的 Je vous ai apporté des bonbons
      • 已加入 ف+ قال+ نا+ ھا = فقلناھا = so+said+we+it
    • 化合物?

      • 分開的 life insurance company employee
      • 已加入 Lebensversicherungsgesellschaftsangestellter

單詞級別下的模型


  • 需要處理 large,openvocabulary
    • 豐富的形態:nejneobhospodařovávatelnějšímu
      (“to the worst farmable one”)

    • 音譯:Christopher Kryštof

    • 非正式拼寫:

字符級別下的模型


1.單詞嵌入可以由字符嵌入組成

  • 爲未知單詞生成嵌入
  • 相似的拼寫共享相似的嵌入
  • 解決OOV問題

2.可以將連接的語言當作字符來處理兩種方法都已證明非常成功!

  • 令人驚訝的是-傳統上,音素/字母不是語義單位-但是DL模型組成了組

文字下方:書寫系統


大多數深度學習NLP的工作都是從書面形式的語言開始的-它是易於處理的發現數據
但是人類語言寫作系統不是一回事!

     
音位(也許有字) jiyawu ngabulu Wambaya
僵化音素 thorough failure English
音節/摩拉 ᑐᖑᔪᐊᖓᔪᖅ Inuktitut
表意文字(音節符號) 去年太空船二號墜毀 Chinese
結合以上 インド洋の島 Japanese

2. 純字符級模型


  • Wesawone很好的例子,用於句子分類的字符級模型
  • 非常深的卷積網絡用於文本分類
  • Conneau,Schwenk,Lecun,Barrault,EACL 2017
  • 通過深度卷積堆棧獲得強大結果

純字符級NMT模型


-最初表現不理想•(Vilar等,2007; Neubig等,2013)

  • 僅解碼器
  • (鍾俊英,趙慶gh,Yoshua Bengio。arXiv
    2016)。
  • 有希望的結果
  • (Wang Ling,Isabel Trancoso,Chris Dyer,Alan Black,arXiv 2015)
  • (Thang Luong,Christopher Manning,ACL 2016)
  • (Marta R.Costa-Jussà,JoséA. R. Fonollosa,ACL 2016)

英語-捷克語WMT 2015成績


  • LuongandManning測試了基準基線純字符級seq2seq(LSTM)NMT系統
  • 針對關鍵字級別的基準進行了有效處理
  • Butitwasssllooooww
    • 3個星期的訓練...在運行時不是那麼快

英語-捷克語WMT 2015示例


無需顯式細分的全字符級神經機器翻譯


Jason Lee,Kyunghyun Cho,Thomas Hoffmann。 2017.編碼器如下; 解碼器是字符級GRU

在LSTM seq2seq模型中具有深度的更強字符結果


回顧基於字符的神經機器翻譯的能力和壓縮。 2018.Cherry,Foster,Bapna,Firat,Macherey,Google AI

3. 子詞模型:兩種趨勢


  • 與詞級模型相同的體系結構:
  • 但是使用較小的單位:“單詞”
  • [Sennrich,Haddow,Birch,ACL’16a],[Chung,Cho,Bengio,ACL’16]。
  • 混合架構:
  • 主模型有文字; 角色的其他東西
  • [Costa-Jussà&Fonollosa,ACL’16],[Luong&Manning,ACL’16]。

字節對編碼


  • 最初是壓縮算法:
    • 最頻繁的字節對一個新字節。

Rico Sennrich,Barry Haddow和Alexandra Birch。 具有子詞單位的稀有詞的神經機器翻譯。 ACL 2016。
https://arxiv.org/abs/1508.07909 https://github.com/rsennrich/subword-nmt https://github.com/EdinburghNLP/nematus


  • 分詞算法:
  • 雖然是自底向上的聚類
  • 以數據中所有(Unicode)字符的字母組合詞表開頭
  • 最常見的ngram對一個新的ngram

  • 分詞算法:
  • 從字符詞彙開始
  • 最常見的ngram對一個新的ngram

     





  • 達到目標詞彙量大小並在您到達時停止
  • 確定性最長的單詞分段
  • 使用某些先前的標記器(通常是用於MT的Moses標記器)識別的單詞進行細分
  • 自動決定vocabforsystem

字詞/句子模型


  • GoogleNMT(GNMT)使用以下版本
    • V1:字詞模型
    • V2:句子模型
  • Ratherthancharn-gramcount,使用貪婪近似來最大化語言模型的對數可能性以選擇片段
    • 添加最大程度減少困惑的n-gram
  • 單詞模型對內單詞進行標記
  • 句子模型來自原始文本
  • BERT使用字詞模型的變體
  • (相對)常用詞在詞彙表中:
    • 1910年代,費爾法克斯
  • 其他單詞是由單詞構成的:
    • hypatia = h ## yp ## ati ## a
      如果您以其他方式使用BERT
      基於模型,您必須處理

4. 字符級以構建詞級學習詞級表示形式


語音標記(Dos Santos和Zadrozny 2014)

  • 卷積字符以生成單詞嵌入
  • 修復了用於PoS標記的詞嵌入窗口

基於字符的LSTM構建單詞表示


基於字符的LSTM


技術方法


字符感知神經語言模型

Yoon Kim,Yacine Jernite,David Sontag,Alexander M.Rush,2015年
更爲複雜/複雜的方法

  • 推導適用於多種語言的強大而強大的語言模型。
  • 編碼子詞相關性:事件,事件,事件...
  • 解決現有模型的稀有字問題。
  • 以更少的參數獲得可比的表現力。

卷積層


  • 在字符級輸入上進行卷積。
  • 隨時間變化的最大池化(有效地選擇n-gram)。

公路網(Srivastava et al.2015)


  • 模擬n-gram交互。
  • 在保留原始信息的同時進行轉換。
  • 功能類似於LSTM存儲單元。

長短期記憶網絡


  • 分層Softmax,用於處理大量輸出詞彙。
  • 通過截斷的反向傳播進行訓練。

定量結果


定性見解


外賣


  • 論文質疑使用詞嵌入作爲神經語言建模輸入的必要性。
  • 字符上方的CNN +高速公路網絡可以提取豐富的語義和結構信息。
  • 關鍵思想:您可以構成“構建基塊”以獲得細微而強大的模型!

混合NMT


  • 兩全其美的架構:
  • 主要在單詞級別進行翻譯
  • 僅在需要時進入角色級別
  • 對複製機制進行了超過2種BLEU改進,以嘗試填寫稀有詞

2級解碼


  • 單詞級光束搜索

  • 單詞級光束搜索
  • 字符級光束搜索<unk>

英語和捷克語的結果


  • 訓練WMT’15數據(1200萬個句子對)
    • newstest2015

樣本英語-捷克語翻譯

  • Char-based:錯誤的名字翻譯

  • Word-based:不正確的對齊

     

  • Char-based&hybrid:diagnózen的正確翻譯

     

  • 基於單詞:身份複製失敗

  • hybrid:正確,11-year-old – jedenáctiletá
  • 錯誤:Shani Bartová

5. 單詞嵌入的字符


詞嵌入和詞形態的聯合模型
(Cao and Rei 2016)

  • 與w2v相同的目標,但使用字符
  • 雙向LSTM計算嵌入
  • 模型嘗試捕獲形態
  • 模型可以推斷出詞根

FastText embeddings


使用子詞信息Bojanowski,Grave,Joulin和Mikolov豐富詞向量。 公平。 2016。
https://arxiv.org/pdf/1607.04606.pdf
https://fasttext.cc

  • 目標:高效的類似於word2vec的單詞表示庫,但更適合具有多種形態的稀有單詞和語言
  • w2v跳過語法模型的擴展,包含字符n-gram
  • 用邊界符號和整個單詞表示的單詞表示爲charcharn-gram:
  • where = <wh,whe,her,ere,re>,<where>
    • 請注意,<her>或<her與她不同
      • 前綴,後綴和整個單詞都很特殊
  • 代表這些表示的詞。
    上下文分數中的單詞爲:
    • 細節:不是共享所有n-gram的表示,而是使用“哈希技巧”來固定向量個數

單詞相似性數據集得分(相關性)

  • 稀有詞的差別收益




Reference:https://www.jianshu.com/p/57eef6923aef

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章