word2vec 中的数学原理详解

原創

2019-05-13 22:28

word2vec 中的数学原理详解

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节，因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟。

第一次接触 word2vec 是 2013 年的 10 月份，当时读了复旦大学郑骁庆老师发表的论文[7]，其主要工作是将 SENNA 的那套算法（[8]）搬到中文场景。觉得挺有意思，于是做了一个实现（可参见[20]），但苦于其中字向量的训练时间太长，便选择使用 word2vec 来提供字向量，没想到中文分词效果还不错，立马对 word2vec 刮目相看了一把，好奇心也随之增长。

后来，陆陆续续看到了 word2vec 的一些具体应用，而 Tomas Mikolov 团队本身也将其推广到了句子和文档（[6]），因此觉得确实有必要对 word2vec 里的算法原理做个了解，以便对他们的后续研究进行追踪。于是，沉下心来，仔细读了一回代码，算是基本搞明白里面的做法了。第一个感觉就是，“明明是个很简单的浅层结构，为什么会被那么多人沸沸扬扬地说成是 Deep Learning 呢？”

解剖 word2vec 源代码的过程中，除了算法层面的收获，其实编程技巧方面的收获也颇多。既然花了功夫来读代码，还是把理解到的东西整理成文，给有需要的朋友提供点参考吧。

在整理本文的过程中, 和深度学习群的群友@北流浪子（[15,16]）进行了多次有益的讨论，在此表示感谢。另外，也参考了其他人的一些资料，都列在参考文献了，在此对他们的工作也一并表示感谢。

作者：peghoty

出处: http://blog.csdn.net/itplus/article/details/37969519

欢迎转载/分享, 但请务必声明文章出处.

分类: 语言模型

标签: word2vec, CBOW, Skip-gram, Hierarchical Softmax, Negative Sampling

好文要顶关注我收藏该文

peghoty
关注 - 0
粉丝 - 24

+加关注

« 上一篇：一种并行随机梯度下降法
» 下一篇：发表在 Science 上的一种新聚类算法

	</div>
	<div class="postDesc">posted @ <span id="post-date">2014-07-21 10:04</span> <a href="https://www.cnblogs.com/peghoty/">peghoty</a> 阅读(<span id="post_view_count">61327</span>) 评论(<span id="post_comment_count">4</span>)  <a href="https://i.cnblogs.com/EditPosts.aspx?postid=3857839" rel="nofollow">编辑</a> <a href="#" onclick="AddToWz(3857839);return false;">收藏</a></div>
</div>
<script type="text/javascript">var allowComments=true,cb_blogId=189252,cb_entryId=3857839,cb_blogApp=currentBlogApp,cb_blogUserGuid='4d9e4bc3-df83-e311-8d02-90b11c0b17d6',cb_entryCreatedDate='2014/7/21 10:04:00';loadViewCount(cb_entryId);var cb_postType=1;var isMarkdown=false;</script>

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

word2vec 中的数学原理详解

word2vec 中的数学原理详解

Python3各種數據結構下的排序及去重彙總

Kaggle競賽中最終成爲0.3%的獲獎經驗

恐怖襲擊等級預測量化與ARMIA時間序列建模的例子

pd.read_excel()練習

Chrome71中HTTP Graph Collector Chrome插件離線安裝方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結