词向量化

将词向量化的一个很简单的思路：
（1）统计语料中出现的每个单词，并按照词频由高到低排列，得到一个字典
（2）根据字典将句子转为由整数表示的向量
有了字典，给定一个词，就能找到它在字典中的位置。比如单词a，在字典中a的位置为3；评论中出现的词在字典中不存则为0。把每个词用其在字典中的index来表示。每句话都将会构造一个对应长度的词向量。
举个栗子：
评论为“I like this movie！”
‘I’在字典中的index为9；
‘like’在字典中的index为37；
‘this’‘在字典中的index为10；
‘movie’在字典中的index为16；
‘！’在字典中的index为28；
这个评论对应的词向量为[9 37 10 16 28]
（3）使用one-hot将每个一维词向量转为二维的向量做为模型输入
假如字典的大小为1000，最短的句子为“I like this movie!”,长度为5，如果使用one-hot编码将词向量为[9 37 10 16 28]编码得到的向量维度为(6, 1000)。其中6为句子长度，1000为字典大小。行向量表示一个单词，且只有在索引位置处值为1，其他位置为0.因此，这样的编码方式得到的输入非常稀疏，耗费不必要的计算资源和时间。
那么有没有高效的方法呢？肯定是有的。
试想一下，将整数组的词向量编码得到另外一种形式的词向量，我们可以理解为中间通过了某种映射关系。这种映射关系能够自定义，比如上述的例子中字典大小只有1000，用10位2进制数不就能完全表示这1000个词吗？使用这样编码方式得到的向量大小只有(N, 10), N为句子长度。我们还能够通过模型去学习得到映射关系，神经网络模型不就能够将输入映射到一个高维空间吗？词嵌入方法Word2Vec，GloVe就是基于这样的想法实现的。

关于词嵌入

词向量化

推荐文章

《日本蜡烛图》读书笔记 & 技术分析回测

一分钟部署 Llama3 中文大模型，没别的，就是快

Python多线程编程深度探索：从入门到实战

《期货-市场技术分析》读书笔记

mongodb处理json数据很好

顶级 Javaer 都在用的 20 个类库，真香！

[转帖]cpupower

google浏览器插件开发

35K*14 薪，入职了！这公司只要不裁员，我能一直呆下去！

ffmpeg 百度云盘

重讀經典神經網絡-AlexNet

卷積神經網絡-LeNet5

音頻信號增強

Python開發環境遷移

TensorlFlow 2.0基本API

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結