Distributed Representations of Words and Phrases and their Compositionality

Distributed Representations of Words and Phrases and their Compositionality

Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean

1.Abstract
在這篇文章中,我們提出了對原來Skip-gram模型的一些擴展。我們展示了在訓練結果過程中對常見詞的二次抽樣能顯著提高速度(大約2x-10x),而且提高了對不常見詞的表示的準確性。此外,與之前工作中更復雜的分層softmax相比,我們提出了一個噪聲對比評估(Noise Contrastive Estimation,NCE)的簡單變體,以訓練這個Skip-gram模型以提升訓練速度以及對常見詞的更好地向量表示。
詞表示的限制在於,它們無法用個體詞的向量來表示慣用短語的向量。例如,“波士頓環球報”是一份報紙,因此它不是“波士頓”和“環球報”的自然組合。因此,用向量去表示整個短語使Sip-gram模型更具有表現力。其他試圖通過組合詞向量來表示句子意義的技術例如,循環自編碼器,也將會從短語向量替代詞向量中獲益。
從基於詞的模型向基於短語的模型擴展是相對簡單的。首先,我們用數據驅動的方法識別了大量的短語,然後在訓練過程中我們將這些短語作爲個體標識。爲了評估短語向量的質量,我們開發了一種包括詞語與短語的類比推理任務的測試集。一個典型的類比是:“Montreal”:“Montreal Canadiens”::“Toronto”:“Toronto Maple Leafs”。(“蒙特利爾”:“蒙特利爾加拿大人”::“多倫多”:“多倫多楓葉”)如果與vec(“蒙特利爾加拿大人”)- vec(“蒙特利爾”)+ vec(“多倫多”)最近的代表是vec(“多倫多楓葉”),則認爲答案是正確的。
最後,我們描述了Skip-gram模型的另外一個有趣的屬性。我們發現簡單的向量相加經常可以產生有意義的結果。例如,vec(“Russia”) + vec(“river”) is close to vec(“Volga River”), and vec(“Germany”) + vec(“capital”) is close to vec(“Berlin”)。這種組合性表示通過對單詞向量表示的基本數學運算,可以獲得不明顯的語言理解程度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章