基於深度學習的推薦(三)：基於attention的AFM模型

原創

如雨星空

2019-09-16 04:24

公衆號

關注公衆號:推薦算法工程師,輸入"進羣",加入交流羣,和小夥伴們一起討論機器學習,深度學習,推薦算法.

前言

從這周開始,我們關注基於attention機制的推薦模型,首先看下較早提出的AFM(Attentional Factorization Machines)模型.論文鏈接:AFM

論文作者認爲,並非所有的特徵交互都包含有效信息,因此那些"less userful features"應該賦予更低的權重.很明顯,當無效信息和有效信息權重相同時,相當於引入了噪聲.而FM缺乏區分不同特徵重要性的能力,可能會獲得次優解.

怎麼賦予權重呢?神經網絡中最常見的就是映射,加個權重矩陣(wx+b),但這種線性的權重,有時不能滿足需要.論文中使用了一層映射+sum pooling+sotfmax構建出了非線性權重係數,作者稱之爲"Attention-based Pooling".

模型介紹

從整體上看,AFM就是FM+Attention.,前面一部分embeding和pair-wise和FM模型的是類似的,然後後面加了個attention機制,就是AFM模型.

首先看前面一部分.FM中特徵的交互是’inner product’,兩個向量做內積,結果是一個值.而AFM中特徵交互是’element-wise product’,兩個向量對應元素相乘,結果是向量:

然後給向量一個映射矩陣,對向量元素求和,得到交叉特徵部分的預測結果,就是論文中的’sum pooling’:

這就是AFM和FM在特徵交互不同的地方,p可以看成是sum pooling,也可以認爲是embedding特徵的權重矩陣,加上後文交互特徵的attention權重,可以說比FM多了兩層權重,一層區分交互特徵重要性,一層區分embedding各維特徵的重要性.從而大大提高了模型的擬合能力.attention係數可以這樣加上去: