词向量与句向量概述

原創

2019-01-25 19:29

比较常见的词向量表示方式：glove、fasttext、wordRank、tfidf-BOW、word2vec

词向量一般看作是文档特征，不同词向量有不同用法，主要有四类词向量：1.hash算法及衍生；2.BOW算法延伸；3.word2vec延伸；4.LDA主题延伸

一个词一列向量-----> hash算法--->word2vec(考虑上下文语境)

一个词一个向量----->BOW算法-->LDA(考虑语言多义)

1.基本概念

一词一列向量hash将词打散成(01010101110)的数值。word2vec在打散的同时定义向量，还考虑了单词上下文语义，doc2vec额外考虑上下语句顺序(单词在段落中顺序)，用在段落中比较好

一个词一个值(bow算法+词权重，LDA主题-词语矩阵)两者递进，LDA运算耗时，业界用的较少

2.词向量到句向量

1.如果是一词一列向量，一般用简单相加(相加被证明是最科学)求得句向量

2.如果一词一个向量，就用词权重组合成句向量方式

3.谷歌句向量sen2vec直接将句子变成列向量

句向量：对于短语或句子，将组成单词对应的所有词向量加起来，作为短语向量、句向量

3.词向量的额外效果

消除歧义：LDA主题模型-词句向量

结合上下文语境：word2vec

文档与文档间关系：bow+tfidf

一般来说，hash值效果稍微差一点，其他三类均不错

4.词向量应用方向

文本分类：BOW+TFIDF(TFIDF能较好区分不同文档)，word2vec，LDA主题-词语向量(潜在语义发现)

文本相似性：word2vec(结合上下文语境，短文本效果良好)、LDA主题-词语向量(文档语义挖掘)

文本主题建模：LDA模型

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

芯片产业管理和营销指北（4）—— 产品线经理的修行

本篇是系列最後一篇，本系統所有內容均來自俞志宏老師的《我在硅谷管芯片：芯片產品線經理生存指南》一書的總結整理。工程師工作比較線性，需要深挖專業知識，但也僅需要專注於專業知識。通常的工作內容是：：設計某個電路，測試某些參數，解決某

2024-06-10 14:36:43

【简写Mybatis-02】注册机的实现以及SqlSession处理

前言注意：學習源碼一定一定不要太關注代碼的編寫，而是注意代碼實現思想：通過設問方式來體現代碼中的思想；方法：5W+1H 源代碼： https://gitee.com/xbhog/mybatis-xbhog ； https://gi

2024-06-10 14:35:12

kube-vip高可用k8s群

kubeadm init --control-plane-endpoint="192.168.215.200" --kubernetes-version=v1.28.2 --pod-network-cidr=10.244.0.0/16 --

2024-06-10 14:29:12

Mac 安装 Node Error: Could not symlink include/node/common.gypi

根據提示，賦權限，刪除文件等 jimmy@MacBook-Pro ~ % brew link node Linking /usr/local/Cellar/node/20.0.0... Er

2024-06-10 14:17:51

EDGE浏览器新用户配置登录Microsoft账户出现0x80190001错误代码

在網頁內可以輕鬆反覆登陸Microsoft賬戶，但是在EDGE瀏覽器上無法登陸。瀏覽器原本有一個用戶配置，已經登陸了一個賬號，在創建新的用戶配置時，始終無法登陸賬戶。這個情況持續了兩個星期若是有使用代理，加速器，hosts修改器

2024-06-10 14:13:51

hosts文件丢失或更改后如何还原

無論hosts文件丟失還是被更改了內容，都可以嘗試以下的內容來恢復原樣。一、技術難度：★☆（1星半）閱讀時間：大約2分鐘 hosts文件所在位置：C:\Windows\System32\drivers\etc 二、

2024-06-10 14:13:51

python gdal 安装使用（Windows， python 3.6.8）

python gdal 安裝使用 python GDAL有兩種安裝方式：第一種是利用 pip install gdal 安裝如果安裝失敗，可以採用下面的方法：第二種離線安裝步驟：（1）查看python版本；（2）下載gdal的

2024-06-10 14:13:11

手绘二维码

看到二維碼，很容易猜到黑白相間的小方格就是二進制比特。那麼這些比特是怎麼得到的？小方格又是按照什麼規則排布的？今天咱們就從零開始將一個 url 畫成二維碼。考慮到大多數人可能不太瞭解二維碼，所以先講下基礎概念。你也可以先看看左耳朵耗子寫的

2024-06-10 14:11:51

研发高阶能力之「技术规划」

爲什麼規劃是高階能力明確什麼是正確的事（what、why），前置於如何正確的做（how）。真有能力明確，就可以不用親自做提出正確的問題，比解決問題更難權力/權威/影響力，建立在比別人都更正確規劃強依賴的事理

2024-06-10 14:11:51

Vue TypeScript 实战：掌握静态类型编程

title: Vue TypeScript 實戰：掌握靜態類型編程 date: 2024/6/10 updated: 2024/6/10 excerpt: 這篇文章介紹瞭如何在TypeScript環境下爲Vue.js應用搭建項目結構，包括

2024-06-10 14:05:40

Python: two dimensional array

# 假設puzzle是一個包含多個字符串的列表，每個字符串都是同一長度的，代表字母網格的一行 puzzle = [ "JGJGDDAOYD", "IDGFHSPOSA", "FGDIOSAFSC

®Geovin Du Dream Park™

2024-06-10 14:03:20

从零手写实现 nginx-13-nginx.conf 配置例子解释 + nginx 配置文件要如何解析？

前言大家好，我是老馬。很高興遇到你。我們爲 java 開發者實現了 java 版本的 nginx https://github.com/houbb/nginx4j 如果你想知道 servlet 如何處理的，可以參考我的另一個項目：

2024-06-10 14:02:20

【MySQL】查询以A字符开头以B字符结尾的数据

查詢以36823206字符開頭以951字符結尾的SPU數據 select * from lingyejun_product where spu_code regexp '^36823206' and spu_code regexp '95

2024-06-10 13:52:19

Web Page Marker Pen All In One

Web Page Marker Pen All In One Web 網頁標記筆 Free Screenshot Capture & Annotation Tool Useful extension for taking screen

2024-06-10 13:51:29

2024 上海市居民小区的电动自行车使用共享充电服务的充电收费标准和依据 All In One

2024 上海市居民小區的電動自行車使用共享充電服務的充電收費標準和依據 All In One 電動自行車充電服務收費標準合法性、合理性按照實際的充電度數和電費價格收取電費，服務費應該單獨收取每次充電收取的服務費的佔比不能高

2024-06-10 13:51:29

24小時熱門文章

python gdal 安装使用（Windows， python 3.6.8）

最新文章

最新評論文章