word2vec中的負採樣（以CBOW模型爲例）

原創

今天周一天气晴

2020-06-26 11:22

CBOW模型圖

輸入詞w（t）的上下文單詞的詞向量（隨機生成），輸入層單詞加和得到了一個跟輸入詞相同維數的向量。對此向量進行相應操作，使得輸出爲w(t)的概率最大。

當然輸出層可以用softmax，目標：w(t)的softmax值最大。針對此目標我們採用交叉熵損失函數。當然這個模型不僅僅針對預測一個單詞時，我們需要將預測所有單詞的交叉熵損失函數相加作爲全局的損失函數，進行多次誤差反傳，當全局損失函數最小時，也就是我們這個模型訓練好的時候。

此時，我們將得到訓練好的所有單詞的詞向量，還有一組Θ值。此時我們給定一組上下文單詞的詞向量就可以預測中間詞。（softmax值最大的詞即爲所求）

負採樣：在給定上下文的基礎上，用邏輯迴歸函數來判斷每一個詞是不是中間詞。

訓練目標：增大正樣本的邏輯迴歸概率，減小負樣本的邏輯迴歸概率（等價於增大負樣本的1-sigmoid值）。

目標函數針對每一個單詞取正例的sigmoid值，與所有負樣本的1-sigmoid值，全部相乘，取最大值，全部值的目標函數相乘作爲全局的目標函數，全局目標函數最大時，Θ即爲所求。

預測時只需要求每個單詞對應的sigmoid值就可以了。意思就是，中間詞是某個單詞的概率，最大值即爲所求。

可用於分類。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

文本分類參考文章

文本分類綜述：http://blog.csdn.net/liuyu1942/article/details/40784415 分類過程：http://www.cnblogs.com/finallyliuyu/archive/2010/10

2020-06-19 11:51:34

2、TF-IDF和BM25計算文本相似度

這兩者計算的都是文檔和文本之間的相似度，如果是兩個短文本貌似也可以。 1、TF-IDF = TF * IDF 假設文本是“我怎麼這麼帥氣”，4個詞，第一個詞“我”，文檔1中一共有10個詞，“我”有2次，這個詞的詞頻都是2，這

2020-07-05 22:00:39

阿里few shot learning文章的個人理解

先貼結構圖： 1、每次C類，每類K樣本，剩下的是測試集。 2、encoder層是BiLSTM+attention，得到編碼向量，假設隱含層個數是96個，句子長度是30，暫不考慮batch_size，那麼每個字的隱含層就是1*192向量，

2020-07-05 22:00:28

激活函數快速理解

1、sigmoid函數所以啊很明顯，會導

2020-07-05 22:00:28

NLP文本分類入門學習及TextCnn實踐筆記——模型訓練（三）

這篇記模型訓練。距離第一篇已過去一個月。從學習到正式啓動模型訓練，花了兩週。模型訓練召回率和準確率達到上線標準又花了兩三週。訓練及測試樣本評估的精確率都是97%、98%，結果一到線上實驗，結果慘不忍睹，才明白模型訓練不是那麼簡單的事情

2020-07-04 13:47:13

FastText在商品分類下的應用（第十屆服創大賽全國三等獎）

昨天第十屆服務外包創新創業大賽公佈了全國三等獎和晉級決賽的名單，獲得了三等獎。這基本上結束了我個人本科階段的比賽，因爲馬上就要去IBM實習了。這篇文章一方面是對這次比賽進行一個總結，另一方面也是想將FastText的使用給大家介

2020-07-02 03:14:33

基於樹模型的lightGBM文本分類

目錄 1、基於TF的關鍵詞提取 2、根據詞頻將文本轉化爲向量 3、基於樹模型的重要特徵選擇 5、完整代碼實現 6、分類結果 1、基於TF的關鍵詞提取使用TF詞頻對訓練集clean_data_train進行關鍵詞提取，選取topK個關鍵詞

2020-06-28 22:26:18

文本轉化爲向量

假如有一句話"I am a student"。用向量來表示每個單詞，採用one hot 編碼表示方式： I -> [1,0,0,0] am -> [0,1,0,0] a -> [0,0,1,0] student -> [0,0,0

2020-06-27 16:51:00

一行代碼自動調參，支持模型壓縮指定大小，Facebook升級FastText

轉自：https://mp.weixin.qq.com/s/LLrq1F2uEC2xEWZrd9uijA FastText 作爲一款使用簡單、運行快速的自然語言處理工具，獲得了很多研究者和開發者的喜愛。美中不足的是，FastText 之

想努力的人

2020-06-27 11:32:25

fasttext進行文本分類

https://github.com/facebookresearch/fastText python版本 https://github.com/salestock/fastText.py 這個是非官方的版本　現在已經不在使用了官方提供

光英的记忆

2020-06-24 11:56:31

【文本分類】RCNN模型

RCNN模型也是用於文本分類的常用模型，其源論文爲Recurrent Convolutional Neural Networks for Text Classification。模型整體結構如下：架構主要包括如下模塊：（1

2020-06-21 07:34:55

中文詞向量的訓練

最近在做畢設，需要對中文進行向量化表示，現有的最全中文詞向量預訓練向量有：最全中文詞向量 part 1:以上鍊接中的詞向量介紹：格式預先訓練好的向量文件是文本格式。每行包含一個單詞和它的向量。每個值由空格分隔。第一行記錄元信息：第一個

2020-06-20 15:24:51

中文詞向量學習記錄-綜述

最近打算準備畢設，所以需要仔細瞭解一下中文詞向量的最近發展，發現一個比較完整的系列文章：參考原文鏈接：https://bamtercelboo.github.io/2018/08/16/chinese_embedding_paper_f

2020-06-20 15:24:51

分類問題集錦及練習

Sklearn 與 TensorFlow 機器學習實用指南 https://hand2st.apachecn.org/#/ 文章目錄一. 分類問題種類二. 評價指標三.分類流程（預處理、分詞、去停用詞、取名詞、特徵提取、特徵加權t

2020-06-20 09:28:03

基於gibbsLDA的文本分類

之前幾篇文章講到了文檔主題模型，但是畢竟我的首要任務還是做分類任務，而涉及主題模型的原因主要是用於text representation，因爲考慮到Topic Model能夠明顯將文檔向量降低維度，當然TopicModel可以做比這更多

2020-06-20 01:48:19

24小時熱門文章

最新文章

最新評論文章