中文词向量学习记录-综述

最近打算准备毕设,所以需要仔细了解一下中文词向量的最近发展,发现一个比较完整的系列文章:

参考原文链接:https://bamtercelboo.github.io/2018/08/16/chinese_embedding_paper_finished

Paper

  1. Component-Enhanced Chinese Character Embeddings
    这是一篇2015年发表在EMNLP(Empirical Methods in Natural Language Processing)会议上的论文,作者来自于香港理工大学 — 李嫣然。

介绍:在本文中,考虑将每个汉字的组件构成一个component列表(可以从在线新华词典中获取相应的component列表),其中将部首信息放在列表的最前面,E:component列表,C:上下文词,Z:目标词。  &&:结合E和C,基于CBOW框架计算出当前目标词的一个词向量表示。

  1. Joint Learning of Character and Word Embeddings
    这是一篇2015年发表在IJCAI (International Joint Conference on Artificial Intelligence)会议上的论文,作者来自于清华大学 — 陈新雄,徐磊。

介绍:这是一篇基于汉字的CWE模型:基于已有的词向量,引入汉字来增强词的效果。核心思想:把CBOW中的词替换成词和字的联合表示,w:word  embedding, c:character embedding,这种联合表示既可以是addition,也可以是concate.

  1. Improve Chinese Word Embeddings by Exploiting Internal Structure
    这是一篇2016年发表在NAACL-HLT(Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies)会议上的论文,作者来自于中国科学技术大学 — Jian Xu。

介绍:基于前面的CWE模型,虽然CWE已经考虑了词的内部组成,增加了语义信息的表示,然而,却忽略了一些问题,在每一个词和他们的组成部分(单字)之间,CWE把单字和词之间的贡献作为一致的,这篇论文提出,他们之间的贡献度应该是不同的,CWE忽略了这一问题,本文要利用外部语言来获取语义信息,计算词与单字之间的相似度来表示其贡献的不同,完善相关工作。
论文提出了联合学习词与字的方法,该方法可以消除中文单字的歧义性,也可以区别出词内部无意义的组成,实验结果表明在 Word SimilarityText Classification 上验证了其有效性。

  1. Multi-Granularity Chinese Word Embedding
    这是一篇2016年发表在EMNLP(Empirical Methods in Natural Language Processing)会议上的论文,作者来自于信息内容安全技术国家工程实验室 — 殷荣超。

介绍:没有仔细阅读

  1. Learning Chinese Word Representations From Glyphs Of Characters
    这是一篇2017年发表在EMNLP(Empirical Methods in Natural Language Processing)会议上的论文,作者来自于台湾大学 — Tzu-Ray Su 和 Hung-Yi Lee。

介绍:这是一篇基于像素的GWE模型,这篇论文的出发点也很新颖,中文汉字可以认为是由图形组件组成的,具有丰富的语义信息,基于此,提出了一个新的学习中文词向量的方法,通过图形字符(character glyphs)来增强词的表示,character glyphs通过图像卷积从位图(bitmaps)中编码得来,character glyphs特征加强了word的表示,也提高了character embedding。这篇论文虽然是在繁体中文进行的改进,不过idea同样也可以应用在简体中文中。在 Word SimilarityWord Analogy 上验证了其实验效果。该模型部分也是分为了几个阶段,

第一个阶段是通过convAE从位图中抽取glyph特征。

第二阶段是在已有的中文词向量模型中进行改进提高,像CWE,MGW模型。

第三阶段是直接使用glyph特征学习中文词向量表示。

  1. Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components
    这是一篇2017年发表在EMNLP(Empirical Methods in Natural Language Processing)会议上的论文,作者来自于香港科技大学 — Jinxing Yu。

介绍:中文汉字包含了丰富的语义信息,这篇论文提出了一个联合学习word,character和更加细粒度的subcharacter的方法来学习word embedding.其中:

w_i代表目标词;

w_i+1,w_i-1代表上下文词;

c_i-1,c_i+1代表上下文词的character;

s_i+1,s_i-1代表上下文词的subcharacter(radical),

s_i代表目标词的subcharacter(radical)。

  1. Enriching Word Vectors with Subword Information
    这是一篇2017年发表在ACL(Association for Computational Linguistics)会议上的论文,作者来自于Facebook AI Research — Piotr Bojanowski ,Edouard Grave 。

介绍:这篇文章是这个系列中的唯一一篇针对西方语言的词向量训练方法,其主要是因为为后续的cw2vec的提出奠定了很好的基础。在英文中,每一个单词由若干个字母组成,单词的词义和其中的组成是有很大的关系的,这篇论文的核心思想就是采用单词的n-gram特征学习词向量的表示,并取得了很好的实验效果。

这篇论文提出的方法也很简单,在每个word的前后分别添加 < 与 > 字符,作为这个单词的开始于结束,还有就是对于只有一个字母的word进行表示,然后抽取其n-gram词袋特征,具体来说,以3-gram为例,单词where,可以被表示成<wh,whe,her,ere,re>,单词a,可以表示为<a>,这篇论文抽取的是3 至 6的n-gram,那么where的所有表示就是,

3-ngram:<wh,whe,her,ere,re>,<whe

4-gram:<whe,wher,here,ere>

5-gram:<wher,where,here>

6-gram:<where,where>

以上就是where的所有表示,除此之外,还把原单词<where>加入到n-gram中,最后word采用的是所有的n-gram的和。

  1. Radical Enhanced Chinese Word Embedding
    这是一篇2018年发表在CCL2018(The Seventeenth China National Conference on Computational Linguistics, CCL 2018)会议上的论文,作者来自于电子科技大学 — Zheng Chen 和 Keqi Hu 

介绍:模型是基于CBOW来进行的改进,通过Radical(部首)来增强word embedding,称之为RECWE模型,具体的模型结构如下图所示,模型结构分为了两个部分:
左边的是word prediction module,是一个典型的CBOW模型结构,其中w_i代表的是目标词,w_i+1、w_i-1代表的是上下文词,h_i1代表是的上下文词的隐层表示。
右边是 sub-information prediction module,它与 word prediction module并行存在,其中的c、s、r与word prediction module 中的w相对应,分别是上下文词与目标词的character、component、radical,h_i2代表的是左右的特征隐层表示。在这部分,也存在CWE模型中一字多义,音译词等影响,他们考虑使用word来构建h_i2。对 h_i1 和 h_i2 都采用了average处理

  1. cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
    这是一篇2018年发表在AAAI 2018(Association for the Advancement of Artificial Intelligence 2018)会议上的论文,作者来自于蚂蚁金服人工智能部 — 曹绍升 。

介绍:前面的中文词向量的训练都是结合了汉字的部首信息,这一篇文章提出一个新颖的点:基于汉字的笔画进行捕获单词的信息。提出了“n元笔画”的概念。所谓“n元笔画”,即就是中文词语(或汉字)连续的n个笔画构成的语义结构。

cw2vec在Skip-Gram基础之上进行改进,把词语的n-gram笔画特征信息代替词语进行训练,cw2vec模型如下图。

所以:

 

  1. Glyce: Glyph-vectors for Chinese Character Representations
    2019年,香侬科技提出了一种汉字字形向量 Glyce。根据汉字的进化过程,采用了多种汉字古今文字和多种书写风格,专为中文象形文字建模设计了一种田字格 CNN架构。Glyce 在13个任务上面达到了很好的性能。

介绍:

References

[1] Component-Enhanced Chinese Character Embeddings
[2] Joint Learning of Character and Word Embeddings
[3] Improve Chinese Word Embeddings by Exploiting Internal Structure
[4] Multi-Granularity Chinese Word Embedding
[5] Learning Chinese Word Representations From Glyphs Of Characters
[6] Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components
[7] Enriching Word Vectors with Subword Information
[8] cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
[9] Radical Enhanced Chinese Word Embedding
[10] Glyce: Glyph-vectors for Chinese Character Representations

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章