word representation

得到一個字的向量表示,能夠保留字之間共現次數相關的信息。
先得到一個語料庫的詞庫,然後計算一個字左邊窗口內和其共同出現的次數的數量,值與距離相反。每個字會映射到一個整數index,這個index就映射到向量的index。比如‘these’ 映射到index 10,則在 are 這個字的向量表示裏vec[10]就代表these出現在are的左邊的“次數”(在統計時,每發現一次vec[10]就增加 1/distance, distance是these和are的距離)。
這樣得到的矩陣是一個堆成矩陣,即these出現在are的左邊和are出現在these的右邊的次數相同。

然後用這個矩陣來訓練glove模型,得到一個文件,一行代表一個字的向量表示,且用空白分開,一行中的第一個字段爲具體的字,之後是這個字的向量表示。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章