Distributed Representations of Sentences and Documents筆記

基本概念

段向量:一種將段落(段落長度可變,可以是句子和一篇文章等)表示成向量的無監督框架。

論文的提出是爲了解決什麼問題:

  • 解決bag-of-words(詞袋模型)的缺點:不考慮詞的順序以及詞的語義。也就是說只要兩篇文章包含的詞一樣,詞袋模型就認爲這兩篇文章一樣。
  • 句子表示中的平均化單詞權重導致的丟失句子順序的問題和合並詞向量的解析樹僅僅適用於句子的缺點。

段向量特點:

  • 爲不同長度的段落訓練出同一長度的向量。
  • 不同段落的詞向量不共享
  • 訓練集訓練出來的詞向量意思一致,可以共享。

算法

1.Word2vec

給定詞the,cat,Sat預測下一個詞,模型如此下所示
在這裏插入圖片描述

每一個詞都用唯一的向量表示,每一個表示詞的向量都是W的一列。然後將每個詞的詞向量連接起來,或者是向量相加。輸出層根據softmax函數計算概率。
給定一組詞
在這裏插入圖片描述
根據wt前後各k個詞,預測Wt
目標函數是
在這裏插入圖片描述
進行softmax
在這裏插入圖片描述
每一個yi是輸出詞i的非標椎化的log概率
在這裏插入圖片描述

2.paragraph vector算法

在這裏插入圖片描述
在上述基礎上,增加了一個段向量。輸入進隱藏層的方式變爲將段向量和詞向量拼接或者求和的方式。後續過程與上述相同。

總結

paragraph vector向量是爲了保存上下文信息而設計的,主要是爲了解決詞序和語義。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章