簡述
概括來講,就是將有點擊的Q-D對與無點的Q-D對做成對訓練,最大化有點擊對的條件概率P(D|Q),特徵上把詞轉成字母序列的ngram,再進行深層映射。
文章鏈接 https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/cikm2013_DSSM_fullversion.pdf
其他結論
文章對比了幾個經典的主題模型和之前Hinton提出的神經網絡主題模型,從實驗結果來看,有監督好過無監督,深層好過淺層。
網絡結構
特徵生成
bag of word (good) -> bag of word (#go goo ood od#)
用這個方法,特徵維度從500K降到30K
計算公式
網絡各隱含層
各隱層及輸出層用tanh激活函數
相關性打分用餘弦值
最後用softmax輸出預測的相關D