Distributed Representations of Sentences and Documents笔记

原創

伊直程序媛

2019-03-17 01:24

基本概念

段向量：一种将段落（段落长度可变，可以是句子和一篇文章等）表示成向量的无监督框架。

论文的提出是为了解决什么问题：

解决bag-of-words（词袋模型）的缺点：不考虑词的顺序以及词的语义。也就是说只要两篇文章包含的词一样，词袋模型就认为这两篇文章一样。
句子表示中的平均化单词权重导致的丢失句子顺序的问题和合并词向量的解析树仅仅适用于句子的缺点。

段向量特点：

为不同长度的段落训练出同一长度的向量。
不同段落的词向量不共享
训练集训练出来的词向量意思一致，可以共享。

算法

1.Word2vec

给定词the，cat，Sat预测下一个词，模型如此下所示

每一个词都用唯一的向量表示，每一个表示词的向量都是W的一列。然后将每个词的词向量连接起来，或者是向量相加。输出层根据softmax函数计算概率。
给定一组词

根据wt前后各k个词，预测Wt
目标函数是

进行softmax

每一个yi是输出词i的非标椎化的log概率

2.paragraph vector算法

在上述基础上，增加了一个段向量。输入进隐藏层的方式变为将段向量和词向量拼接或者求和的方式。后续过程与上述相同。

总结

paragraph vector向量是为了保存上下文信息而设计的，主要是为了解决词序和语义。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Postman 拷贝 curl 不识别 --data-raw

postman：請求路徑：拷貝出來的curl： curl --location --request POST 'http://xxxxxxxxxxxxx/xxx/xxx' \ --header 'Content-Type:

2024-06-06 14:26:55

985 硕士程序员，空窗 4 个月没有 Offer！

大家好，我是R哥。最近，R哥分享了幾個特別有意思的面試輔導成功案例： 35K*14 薪入職了，這公司只要不裁員，我能一直呆下去。。幹了 2 年多 Java 外包，終於脫離了！輔導一週，連拿 3 個 Offer！說到

2024-06-06 14:24:35

（数据科学学习手札161）高性能数据分析利器DuckDB在Python中的使用

本文完整代碼及附件已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介　　大家好我是費老師，就在幾天前，經過六年多的持續開發迭代，著名的開源高性能分

2024-06-06 14:24:35

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

十年河東，十年河西，莫欺少年窮學無止境，精益求精先決條件主服務器也稱之爲分發服務器，從服務器稱之爲訂閱服務器下文皆按照主/從服務器稱呼主服務器和訂閱服務器需在同一個內網網絡內主服務器和訂閱服務器安裝相同版本sqlserver，本

2024-06-06 14:24:25

终于搞懂了！原来vue3中template使用ref无需.value是因为这个

前言衆所周知，vue3的template中使用ref變量無需使用.value。還可以在事件處理器中進行賦值操作時，無需使用.value就可以直接修改ref變量的值，比如：<button @click="msg = 'Hello Vue3'

你假裝沒察覺

2024-06-06 14:24:14

调试chatglm4代码

import torch from transformers import AutoModelForCausalLM, AutoTokenizer from modeling_chatglm import ChatGLMForConditi

張博的博客

2024-06-06 14:22:54

记一次 .NET某工控视觉自动化系统卡死分析

一：背景 1. 講故事今天分享的dump是訓練營裏一位學員的，從一個啥也不會到現在分析的有模有樣，真的是看他成長起來的，調試技術學會了就是真真實實自己的，話不多說，上windbg說話。二：WinDbg 分析 1. 爲什麼會卡死這位學員

2024-06-06 14:18:44

k8s组件和网络插件挂掉，演示已有的pod是否正常运行

環境 03 master ,05 06是node [root@mcwk8s03 mcwtest]# kubectl get nodes -o wide NAME STATUS ROLES AGE VERSI

2024-06-06 14:16:54

创建一条隧道网络，进行传输的时候，是否是转换为物理网卡IP进行通信？ k8s组件和网络插件挂掉，演示已有的pod是否正常运行

由此產生的疑問： k8s組件和網絡插件掛掉，演示已有的pod是否正常運行【1】創建一條隧道網絡，進行傳輸的時候，是否是轉換爲物理網卡IP進行通信？在創建隧道網絡進行傳輸時，通常不會直接轉換爲物理網卡IP進行通信。

2024-06-06 14:16:54

aecmap直接用地理座标系计算面积

aecgis直接用地理座標系計算面積 1.添加字段，選擇雙精度 2.打開字段計算器，選擇python 3.輸入： !Shape.geodesicArea!/1000000 　4.計算 @ouyang 翻譯搜索

2024-06-06 14:16:34

java由于越界导致的报错

問題兩種計算時間戳的結果不一樣。 int days = 30; Instant now = Instant.now(); long timestamp_cur = now.toEpochMilli(); long nowPre = ti

2024-06-06 14:11:03

webDav网盘

今天又學習到了，優點是直接用IIS或nginx等發佈，使用80或443端口。 Windows Server 安裝 WebDAV (步驟超詳細) - 鄭道傑 - 博客園 (cnblogs.com) 全網最詳細 WebDAV 搭建文檔（Wi

2024-06-06 14:09:13

NFS，smb和数据库文件

nfs的搭建網上有很多，可自行查看 Windows Server2012 R2搭建NFS服務器 - 知乎 (zhihu.com) 其中Windows10家庭版不支持NFS客戶端，目前Windows上的協議是V3版本，防火牆上有NFS的選項，

2024-06-06 14:09:13

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

通過大模型來實現多個智能體進行遊戲對局這個想對已經比較成熟了無論是去年驚豔的斯坦福小鎮還是比如metaGPT或者類似的框架都是使用智能體技術讓大模型來操控，從而讓大模型跳出自身“預測下一個token”的文字功能去探索更多的應用落地可能性。不

2024-06-06 14:08:23

python内置函数——sorted

對List、Dict進行排序，Python提供了兩個方法對給定的List L進行排序，方法1.用List的成員函數sort進行排序，在本地進行排序，不返回副本方法2.用built-in函數sorted進行排序（從2.4開始），返回副本

python學習者0

2024-06-06 14:07:53

24小時熱門文章

最新文章

最新評論文章