GloVe：Global Vectors for Word Representation 理论介绍

原創

2020-07-03 14:02

1、背景介绍

2、摘要：

提出了一种新的词向量学习方法GloVe， GloVe能够同时利用全局的统计信息和局部的上下文信息从而学习到非常好的词向量

3、准备工作

前人工作介绍，主要介绍矩阵分解和Word2vec两种方法

4、介绍：

矩阵分解和Word2vec学习词向量的方式各有优劣，本文提出的GloVe同时学习者两种信息

5、模型介绍：

介绍GloVe的推导过程，GloVe与其他模型之间的联系，GloVe的复杂度分析

6、实验：

实验探究GloVe模型的效果，以及对某些超参数的分析

7、总结

0、论文背景知识

词共现矩阵

1. I enjoy flying。

2. I like NLP。

3. I like de

ep learning

基于上下文的向量学习方法 Word2Vec

缺点：无法使用全局的统计信息

研究成果: 在词对推理数据集上取得最好的结果, 公布了一系列基于GloVe的预训练词向量

论文中的相关介绍

https://nlp.stanford.edu/projects/glove/

1、摘要

当前词向量学习模型能够通过向量的算术计算捕捉词之间细微的语法和语义规律，但是这种规律背后的原理依旧不清楚。经过仔细的分析，我们发现了一些有助于这种词向量规律的特性，并基于词提出了一种新的对数双线性回归模型，这种模型能够利用全局矩阵分解和局部上下文的优点来学习词向量。我们的模型通过只在共现矩阵中的非0位置训练达到高效训练的目的。我们的模型在词对推理任务上得到75%的准确率，并且在多个任务上得到最优结果。

分析：

我们可以使用一些词来描述一个词，比如我们使用冰块和蒸汽来描述固体、气体、水和时尚四个词。

与冰块接近，并且和蒸汽不接近：固体并且概率比值很大

与蒸汽接近，并且和冰块不接近：气体并且概率比值很小

与冰块和蒸汽都不接近：水和时尚并且概率比值不大不小

结论：共现矩阵的概率比值可以用来区分词概率计算为条件概率

（1）为了描述 Wi 和 Wj 的差异可以使用Wi 和 Wj 做减法生成公式（2）

Wi 和 Wj 是描述差异的，同时右侧的比值为标量，如何把左侧的转化成右侧标量

令F=exp，可以有以下推导流程：

可推导出（7）

原理：词对出现次数越多，那么这两个词在loss函数中的影响越大。

f(X_ij )需要满足：

•X_ij=0时， f(X_ij )=0：表示没有共现过的权重为0，不参加训练

•非减函数，因为共现次数越多，权重越大

•f(X_ij )不能无限制的大，防止is，are，the的影响

训练集的softmax 处理和word2Vec 的 skip-gram 中心词预测周围词的方式一致

Xij 表示有效词向量

Pij = Xij/ Xi 所以 Xij = Pij*Xi

上面公式中： Pij 为数据的真实分布，Qij 为训练分布 H(Pi,Qi) 表示交叉熵损失函数

由于差的平方内部元素可以交换，有下公式

对比下面的GloVe 公式：

（15）（16）相似

论文中指出f(Xij) 比Word2Vec 中的Xi 效果更好一些

实验结果与分析

•在词对推理数据集上取得最好的结果

•多个词相似度任务上取得最好的结果

•命名实体识别实验结果

•向量长度对结果的影响

•窗口大小对结果的影响

•和Word2vec对比实验

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Twitch表情中的情绪分析

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Martin Anderson

2021-12-07 16:00:03

达摩院AliceMind上新！首个中文表格预训练模型发布，已向业界开源

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-02 18:18:58

在元宇宙里怎么交朋友？Meta发布跨语种交流语音模型，支持128种语言无障碍对话

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-11-23 14:03:53

人工智能时代，如何硬核玩音乐？| InfoQ《大咖说》

直播內容：在人工智能技術迅速發展的當下，越來越多的領域被這項技術注入新的活力。作爲多媒體領域中不可缺少的組成部分，音樂對於人類的重要性不言而喻。值得一提的是，人工智能在音樂領域的研究早在多年前就已經開始了，並且也落地了很多成熟應用。當前

InfoQ 中文站

2021-11-12 14:23:49

不是只有数字化水平高，才可以落地知识图谱

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-11-11 15:23:53

腾讯发布超大预训练系统派大星，聚焦解决BERT等超大模型训练时的“GPU内存墙”问题

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-02 13:38:53

微软和英伟达推出训练语言模型MT-NLG：5300亿参数量，是GPT-3的3倍

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-10-12 14:13:53

谷歌推出Translatotron 2，一种没有深度伪造潜力的语音到语音直接翻译神经模型

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-09-10 14:09:01

放心，GPT-3不会“杀死”编程

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-09-03 17:58:55

为什么神经网络不适合理解自然语言？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-08-04 16:13:54

易聊科技宣布在线客服系统IM永久免费，透视智能客服的商业化潜力

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-07-27 17:33:49

5个流行的自然语言处理库及入门用法

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-07-26 10:43:50

AI虚拟人多模态交互落地难题如何破解？我们在乐享A.I.技术沙龙成都站找到了答案

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-06-24 16:18:54

官宣！达摩院开源秘藏深度语言模型体系AliceMind，NLP正在走向大工业时代

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-06-22 14:48:49

让普通人秒会编程？微软在Power平台上集成GPT-3，将自然语言直接变成现成代码

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-05-28 17:48:57

24小時熱門文章

最新文章

最新評論文章