Task_01_Introduction and Word Vectors

lecture plan

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

1.how do we represent the meaning of a word?

1.1 wordnet

建立所有同義詞synonym和下義詞hypernym(即“is a"的關係)的詞庫,一個單詞的含義就由它的同義詞集合和下義詞集合來定義。

這一表示方法有很多問題;這一表示方法有很多問題,比如一個單詞只在某些語境下和另一個詞爲同義詞而其他語境下不是,詞彙的新的含義很難包含進入詞庫,定義比較主觀且需要較多人力整理,而且也很難量化兩個詞的相似程度。

ppt中wordnet的問題

  • 缺乏細微之處:同義詞只在某些情況下正確
  • 詞缺乏新含義
  • 偏主觀
  • 需要人力去更新修改
  • 不能計算word的相似度
    在這裏插入圖片描述

1.2 representing words by their context

一個簡單的方法是我們用one-hot的向量來表示單詞,即該單詞對應所在元素爲1,向量中其他元素均爲0。
在這裏插入圖片描述
而向量的維度就等於詞庫中的單詞數目。

一個顯然的問題是由於所有向量都是互相正交的,我們無法有效的表示兩個向量間的相似度,並且向量維度過大。

1.3 distributional semantics

we use the context of w to build up a representation of a word ww.這就是分佈語義學的思想,用上下文表示單詞,這是現代統計nlp的one of best ideas.,它提供了學習單詞含義的好方法。

  • 100維詞向量的二維投影

在這裏插入圖片描述
這種二維投影雖然會損失信息,扭曲原空間的內容,但是從這個向量空間中我們可看出向量空間中表示出的單詞的相似性。

2. word2vec : overview

我們將每個單詞構建一個密集的向量,這樣它與出現在相似上下文中的單詞向量相似。

idea:

  • 有大量的文本;
  • 固定詞彙表中的每個單詞都由一個向量表示;
  • 瀏覽文本中的每個位置t,其中有一箇中心詞c和上下文(“外部”)單詞o;
  • 使用c和o的詞向量的相似性來計算o給定c的概率(反之亦然);
  • 不斷的調整詞向量,最大化概率。
    下圖表示,w爲into的計算圖示:
    在這裏插入圖片描述
    在word2vec中,條件概率寫作context word與center word的點乘形式再對其做softmax運算:
    在這裏插入圖片描述
    而整體的似然率就可以寫成這些條件概率的聯乘積形式:
    在這裏插入圖片描述
    而我們的目標函數或者損失函數就可以寫作如下形式:

在這裏插入圖片描述
有了目標函數以及每個條件概率的表現形式,我們就可以利用梯度下降算法來逐步求得使目標函數最小的word vector的θ\theta,這也就意味着我們將擅長再另一個單詞的上下文中預測單詞:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章