最近打算准备毕设，所以需要仔细了解一下中文词向量的最近发展，发现一个比较完整的系列文章：

参考原文链接：https://bamtercelboo.github.io/2018/08/16/chinese_embedding_paper_finished

Paper

Component-Enhanced Chinese Character Embeddings
这是一篇2015年发表在EMNLP(Empirical Methods in Natural Language Processing)会议上的论文，作者来自于香港理工大学 — 李嫣然。

介绍：在本文中，考虑将每个汉字的组件构成一个component列表(可以从在线新华词典中获取相应的component列表)，其中将部首信息放在列表的最前面，E：component列表，C：上下文词，Z：目标词。 &&：结合E和C，基于CBOW框架计算出当前目标词的一个词向量表示。

Joint Learning of Character and Word Embeddings
这是一篇2015年发表在IJCAI (International Joint Conference on Artificial Intelligence)会议上的论文，作者来自于清华大学 — 陈新雄，徐磊。

介绍：这是一篇基于汉字的CWE模型：基于已有的词向量，引入汉字来增强词的效果。核心思想：把CBOW中的词替换成词和字的联合表示，w:word embedding, c:character embedding,这种联合表示既可以是addition，也可以是concate.

Improve Chinese Word Embeddings by Exploiting Internal Structure
这是一篇2016年发表在NAACL-HLT(Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies)会议上的论文，作者来自于中国科学技术大学 — Jian Xu。

介绍：基于前面的CWE模型，虽然CWE已经考虑了词的内部组成，增加了语义信息的表示，然而，却忽略了一些问题，在每一个词和他们的组成部分（单字）之间，CWE把单字和词之间的贡献作为一致的，这篇论文提出，他们之间的贡献度应该是不同的，CWE忽略了这一问题，本文要利用外部语言来获取语义信息，计算词与单字之间的相似度来表示其贡献的不同，完善相关工作。
论文提出了联合学习词与字的方法，该方法可以消除中文单字的歧义性，也可以区别出词内部无意义的组成，实验结果表明在 Word Similarity 和 Text Classification 上验证了其有效性。

Multi-Granularity Chinese Word Embedding
这是一篇2016年发表在EMNLP(Empirical Methods in Natural Language Processing)会议上的论文，作者来自于信息内容安全技术国家工程实验室 — 殷荣超。

介绍：没有仔细阅读

Learning Chinese Word Representations From Glyphs Of Characters
这是一篇2017年发表在EMNLP(Empirical Methods in Natural Language Processing)会议上的论文，作者来自于台湾大学 — Tzu-Ray Su 和 Hung-Yi Lee。

介绍：这是一篇基于像素的GWE模型，这篇论文的出发点也很新颖，中文汉字可以认为是由图形组件组成的，具有丰富的语义信息，基于此，提出了一个新的学习中文词向量的方法，通过图形字符（character glyphs）来增强词的表示，character glyphs通过图像卷积从位图（bitmaps）中编码得来，character glyphs特征加强了word的表示，也提高了character embedding。这篇论文虽然是在繁体中文进行的改进，不过idea同样也可以应用在简体中文中。在 Word Similarity 和 Word Analogy 上验证了其实验效果。该模型部分也是分为了几个阶段，

第一个阶段是通过convAE从位图中抽取glyph特征。

第二阶段是在已有的中文词向量模型中进行改进提高，像CWE，MGW模型。

第三阶段是直接使用glyph特征学习中文词向量表示。

Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components
这是一篇2017年发表在EMNLP(Empirical Methods in Natural Language Processing)会议上的论文，作者来自于香港科技大学 — Jinxing Yu。

介绍：中文汉字包含了丰富的语义信息，这篇论文提出了一个联合学习word,character和更加细粒度的subcharacter的方法来学习word embedding.其中：

w_i代表目标词；

w_i+1，w_i-1代表上下文词；

c_i-1，c_i+1代表上下文词的character；

s_i+1，s_i-1代表上下文词的subcharacter(radical)，

s_i代表目标词的subcharacter(radical)。

Enriching Word Vectors with Subword Information
这是一篇2017年发表在ACL(Association for Computational Linguistics)会议上的论文，作者来自于Facebook AI Research — Piotr Bojanowski ，Edouard Grave 。

介绍：这篇文章是这个系列中的唯一一篇针对西方语言的词向量训练方法，其主要是因为为后续的cw2vec的提出奠定了很好的基础。在英文中，每一个单词由若干个字母组成，单词的词义和其中的组成是有很大的关系的，这篇论文的核心思想就是采用单词的n-gram特征学习词向量的表示，并取得了很好的实验效果。

这篇论文提出的方法也很简单，在每个word的前后分别添加 < 与 > 字符，作为这个单词的开始于结束，还有就是对于只有一个字母的word进行表示，然后抽取其n-gram词袋特征，具体来说，以3-gram为例，单词where，可以被表示成<wh，whe，her，ere，re>，单词a，可以表示为<a>，这篇论文抽取的是3 至 6的n-gram，那么where的所有表示就是，

3-ngram：<wh，whe，her，ere，re>，<whe，

4-gram：<whe，wher，here，ere>，

5-gram：<wher，where，here>，

6-gram：<where，where>，

以上就是where的所有表示，除此之外，还把原单词<where>加入到n-gram中，最后word采用的是所有的n-gram的和。

Radical Enhanced Chinese Word Embedding
这是一篇2018年发表在CCL2018(The Seventeenth China National Conference on Computational Linguistics, CCL 2018)会议上的论文，作者来自于电子科技大学 — Zheng Chen 和 Keqi Hu

介绍：模型是基于CBOW来进行的改进，通过Radical（部首）来增强word embedding，称之为RECWE模型，具体的模型结构如下图所示，模型结构分为了两个部分：
左边的是word prediction module，是一个典型的CBOW模型结构，其中w_i代表的是目标词，w_i+1、w_i-1代表的是上下文词，h_i1代表是的上下文词的隐层表示。
右边是 sub-information prediction module，它与 word prediction module并行存在，其中的c、s、r与word prediction module 中的w相对应，分别是上下文词与目标词的character、component、radical，h_i2代表的是左右的特征隐层表示。在这部分，也存在CWE模型中一字多义，音译词等影响，他们考虑使用word来构建h_i2。对 h_i1 和 h_i2 都采用了average处理

cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
这是一篇2018年发表在AAAI 2018(Association for the Advancement of Artificial Intelligence 2018)会议上的论文，作者来自于蚂蚁金服人工智能部 — 曹绍升。

介绍：前面的中文词向量的训练都是结合了汉字的部首信息，这一篇文章提出一个新颖的点：基于汉字的笔画进行捕获单词的信息。提出了“n元笔画”的概念。所谓“n元笔画”，即就是中文词语（或汉字）连续的n个笔画构成的语义结构。

cw2vec在Skip-Gram基础之上进行改进，把词语的n-gram笔画特征信息代替词语进行训练，cw2vec模型如下图。

所以：

Glyce: Glyph-vectors for Chinese Character Representations
2019年，香侬科技提出了一种汉字字形向量 Glyce。根据汉字的进化过程，采用了多种汉字古今文字和多种书写风格，专为中文象形文字建模设计了一种田字格 CNN架构。Glyce 在13个任务上面达到了很好的性能。

介绍：

References

[1] Component-Enhanced Chinese Character Embeddings
[2] Joint Learning of Character and Word Embeddings
[3] Improve Chinese Word Embeddings by Exploiting Internal Structure
[4] Multi-Granularity Chinese Word Embedding
[5] Learning Chinese Word Representations From Glyphs Of Characters
[6] Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components
[7] Enriching Word Vectors with Subword Information
[8] cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
[9] Radical Enhanced Chinese Word Embedding
[10] Glyce: Glyph-vectors for Chinese Character Representations

中文词向量学习记录-综述

Paper

References

詞向量學習總結 [獨熱表示-分佈式表示-word2vec -Glove - fast text - ELMO - BERT]

在excel中構建lift table時遇到的$絕對引用、相對引用、混合引用的使用

中文詞向量的訓練

劍指offer在線編程（08-14）【9】

機器學習面試題集(個人疑惑的題)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結