詞向量 Word2vec 詳解

NLP的常見任務

自動摘要

指代消解                          小明放學了,媽媽去接

機器翻譯                           世界,你好             Hello world

詞性標註                          Heat(v.) water(n.) in (p.) a (det.)  pot(n.)

分詞                                 /喜歡//火鍋

主題識別

文本分類

NLP處理方法

傳統基於規則

現代:基於統計機器學習

HMM,CRF,SVM….

CNN,RNN….

在計算機中表示一個詞

要將自然語言交給機器學習中的算法來處理,通常需要首先將語言數值化詞向量技術就是將抽象的詞用矩陣向量表示以供計算機處理的技術。

向量空間子結構

     VKing  - VQueen  + VWomen  = VMan        

 VParis  - VFrance  + VGerman  = VBerlin

最終目標:詞向量表示作爲機器學習、特別是深度學 習的輸入和表示空間

表示形式

       離散表示:

        One–hot,   Bag of Words,   N-gram

     分佈式表示:

        共現矩陣,Word2Vec,  Fasttext

離散表示:One-hot表示

語料庫

John likes to watch movies. Mary likes ,too.

John also likes to watch football games.

詞典:

{“John”:1,”likes”:2,”to”:3,”watch”:4,”movies”:5,”also”:6,

“football”:7,”games”:8,”Mary”:9,”too”:10}

One-hot表示:

John:[1,0,0,0,0,0,0,0,0,0]

likes:[0,1,0,0,0,0,0,0,0,0]

         ….

too:[0,0,0,0,0,0,0,0,0,1]

詞典包含10個單詞,每個單詞有唯一索引

在詞典中的順序和在句子中的順序沒有關聯

離散表示:Bag of Words

文檔的向量表示可以直接將各詞的詞向量表示加和:

John likes to watch movies. Mary likes ,too.

John also likes to watch football games.

[1,2,1,1,1,0,0,0,1,1]

[1,1,1,1,0,1,1,1,0,0]

詞權重:TF-IDF(Term Frequency – Inverse Document Frequency

tTF"詞t的TF:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章