word embedding(詞嵌入):一種分佈式此表示(distributed word representation),可以同時捕獲詞的語義以及語法信息。
本文主要比較已有的各種詞嵌入模型與方法,並通過實驗的視角詳細分析在訓練詞嵌入模型的需要注意的一些重要點,包括模型建立、訓練數據集設計、參數選擇。
首先要弄清楚模型的建立,所有的模型基本都基於:共同出現在相似上下文環境中的詞傾向於擁有相似的含義(words that occur in similar contexts tend to have similar meanings),但不同的模型使用不同的方法對目標詞w和它的上下文環境c進行建模。下表是常用方法的簡答比較:
Model | Relation of w,c | Representation of c |
---|---|---|
Skip-gram | c predicts w | One of c |
Continuous bag of words(CBOW) | c predicts w | Average |
Order | c predicts w | Concatenation |
Log-bilinear language(LBL) model | c predicts w | Compositionality |
Neural network language model(NNLM) | c predicts w | Compositionality |
Collobert and Weston(C&W) | Scores w,c | Compositionality |