PNN論文翻譯 - 基於點乘的用戶響應神經網絡預測(四)

摘要 - 預測用戶響應(例如點擊次數和轉化次數)非常重要,並已在其中使用許多Web應用程序,包括推薦系統,Web搜索和在線廣告。這些應用程序中的數據主要是類別特徵,包含多個字段;一個典型的表示是將其轉換爲高維稀疏通過獨熱編碼的二進制特徵表示。面對極度稀疏,傳統模型可能會限制其從數據中挖掘出的信息,即低階特徵組合。像深度神經網絡這樣的深層模型,不能直接申請高維輸入因爲巨大的特徵空間。在本文中,我們提出基於點乘的神經網絡(PNN),具有嵌入功能層來學習類別數據的分佈式表示,一個點乘層來捕捉場間類別之間的交互模式,並進一步完全連接層來探索高階特徵交互。我們的實驗結果有兩個大型真實世界廣告點擊數據集演示了PNN在各種方面始終優於最先進的模型指標。

 

I. INTRODUCTION

在信息檢索中的許多個性化任務中的作用(IR),學習和預測用戶響應現在起着至關重要的作用,例如推薦系統,網絡搜索和在線廣告。 用戶響應預測的目標是估計用戶對提供廣告表達肯定的概率響應,例如 點擊,購買等,在給定的背景下[1]。該預測概率表示用戶對該興趣的興趣特定項目,如新聞文章,商業項目或廣告帖,影響隨後的決定製作文件排名[2]和廣告投標[3]。

這些IR任務中的數據收集主要採用多字段分類形式,例如,[工作日=星期二,Gender = Male,City = London],通常通過onehot編碼轉換爲高維稀疏二進制特徵[4]。 例如,三個字段向量用獨熱編碼連接爲

許多機器學習模型,包括線性邏輯迴歸[5],非線性梯度增強決策樹[4]和分解機[6],已被提出工作在這樣的高維稀疏二進制特徵和產生高質量的用戶響應預測。 然而,這些模型高度依賴於特徵工程,以捕獲高階潛在模式[7]。

最近,深度神經網絡(DNN)[8]已經表明具有很強的分類和迴歸任務能力,包括計算機視覺[9],語音識別[10]和自然語言處理[11]。採用DNN很有希望在用戶響應預測中,因爲DNN可以自動進行學習更具表現力的特徵表徵並提供更好的表現預測性能。爲了改善多字段類別數據交互,[12]提出了嵌入基於分解機器預訓練的方法。基於級聯嵌入向量,多層構建感知器(MLP)以探索特徵交互。但是,嵌入初始化的質量很大由分解機器限制。更重要的是,感知器層的“添加”操作可能沒有用探索多個領域中分類數據的交互。以前的工作[1],[6]已經表明了本地的依賴關係可以通過特徵向量“產品”操作而不是“添加”來有效地探索來自不同領域的特徵之間的關係操作。

利用神經網絡和挖掘潛在的數據模式的學習能力比MLP更有效,在本文中,我們提出了基於點乘的神經網絡(PNN)(i)從[12]中使用的沒有預訓練的嵌入層開始,以及(ii)創建可一個點乘層用於模擬不同特徵的嵌入特徵向量相互作用關係,以及(iii)進一步提煉高階特徵具有完全連接的MLP的模式。 我們提出兩種類型PNN,inner點乘和outer點乘操作圖層,有效地模擬交互模式。

我們將在線廣告中的CTR估計作爲探索PNN模型學習能力的工作實例。兩個大型真實世界數據集的廣泛實驗結果證明了我們的一致優勢最先進的用戶響應預測模型的模型關於各種指標的[6],[13],[12]。

 

II. RELATED WORK

通常制定響應預測問題作爲具有預測可能性的二元分類問題或交叉熵作爲訓練目標[14]。 在ROC曲線的面積(AUC)和相對信息增益(RIG)是響應預測準確性的共同評估指標[15]。 從建模角度看,線性邏輯迴歸(LR)[5],[16]和非線性梯度增強決策樹(GBDT)[4]和分解機(FM)[6]廣泛用於工業應用。 但是,這些模型是限制採用高階潛在模式或學習質量特徵表示。

深度學習能夠探索高階潛在模式以及概括表達數據表示[11]。DNN的輸入數據通常是密集的實數向量,而多種類分類特徵的解決方案尚未解決還需好好研究。分解機支持的神經網絡[12]中提出了(FNN)來學習嵌入向量,通過預先訓練的FM來過類別特徵。卷積點擊[13]中提出了預測模型(CCPM)來預測廣告點擊卷積神經網絡(CNN)。但是,在CCPM只對鄰居進行了卷積某個對齊的字段,無法模擬完整非鄰居特徵之間的相互作用。反覆神經利用網絡(RNN)將用戶查詢建模爲一系列用戶上下文來預測廣告點擊行爲[17]。產品單元神經網絡(PUNN)[18]被提出來構建輸入的高階組合。但是,都沒有PUNN可以學習本地依賴關係,也不會產生有界的依賴關係輸出以適應響應率。

在本文中,我們演示了PNN模型的方式學習本地依賴關係和高階特徵交互

 

III. DEEP LEARNING FOR CTR ESTIMATION

我們將在線廣告中的點擊率估算[14]作爲一個以工作爲例來制定我們的模型並探索各種指標的表現。 任務是在給定的背景下建立預測模型來估計用戶點擊特定的概率廣告。

每個數據樣本由多個分類字段組成,比如說用戶信息(城市,小時等),廣告商等數據信息(域名,廣告位等)和廣告信息(廣告創意ID,廣告系列ID等)[19]。 所有信息表示爲多字段分類特徵向量,其中每個字段(例如,城市)是在第I節中討論過的獨熱編碼。這樣一個字段式的單熱編碼表徵導致維數和巨大的稀疏性[12]。 此外,還存在本地依賴關係領域之間的等級結構[1]。

因此,我們正在尋求DNN模型來捕獲高階多分類特徵中的潛在模式。 我們來了以“點乘”層的思想來自動探索特徵交互。 在FM中,特徵交互被定義爲內部兩個特徵向量的乘積[20]。

所提出的深度學習模型被稱爲基於“點乘”的神經網絡(PNN)。 在本節中,我們將介紹PNN模型詳細討論了這個模型的兩個變種,即基於內積的神經網絡(IPNN),具有內積層和外積神經網絡(OPNN)使用外部產品表達。

A. 基於點乘的神經網絡PNN模型的體系結構如圖1所示。

從自上而下的角度來看,PNN的輸出是真實的數y∈(0,1)作爲預測的CTR:

是第一個隱藏層的輸出。該激活單元(relu),定義爲relu(x)= max(0,x),被選爲隱藏層輸出的激活函數,它具有出色的性能和高效的計算。

第一個隱藏層與“點乘層”直接相連。 它的輸入包括線性信號lz和二次方信號lp。 關於lz和lp輸入,隱藏層的輸入l1可以表達爲:

接着,讓我們來定義一下 inner product

首先將元素乘法應用於A,B,然後乘法結果總計爲標量。 然後,lz和lp分別通過z和p計算:

通過引入“1”恆定信號,產品層可以不僅生成二次信號p,還維持線性信號z,如圖1所示。更具體地說,

其中fi就是一個特徵域的向量,p(i,j) = g(fi,fj)定義了特徵對之間的交叉方式,我們的PNN模型可以通過設計不同的g方式來有不同的實現。在這篇論文中,我們定義了兩種方式,IPNN/OPNN,我會在後續對這兩個方法進行詳細描述,這也是論文中最重要的地方。

fi這個屬於特徵i的embedding向量,是一個embedding層的輸出向量

x是一個包含多個取值的輸入特徵向量,x[start i:end i]代表了特徵i的one-hot表達向量。Wo代表了embedding層的參數,是特徵 i 的全連接方式。

最後,使用交叉熵損失作爲loss的優化方式,這是一個唄廣泛用作目標損失函數來計算概率這種損失的方式

其中y是真實label(1代表點擊、0代表不點擊),y^是模型的預測值

 

B. Inner Product-based Neural Netwo

在這一節中,我們會演示IPNN的原理,首先我們定義一個特徵交叉的向量表達方式:: g(fi , fj ) = <fi , fj>

對於恆定信號“1”,線性信息z被表達爲

對於二次信息p,成對內積的方式 g(fi,fj)形成一個平方矩陣 ,回顧一下在公式5中定義的 lp 

表示了向量內積的交換法則,p和Wnp應該是對稱的

這種成對連接擴展了神經的網絡能力,但也極大地增加了複雜性。 在這案例,l1的公式,如公式1所述。 (3),空間複雜度是 O(D1N(M + N))、時間複雜度是O(N*N(D1 + M)),其中D1和M是網絡架構的超參數,M是向量維度,N是輸入字段的數量 也就是特徵的個數。受FM [20]的啓發,我們提出了矩陣的概念分解以減少複雜性

通過第n個單節點上的第一階分解,我們給lp完整的表達公式

通過減少等式中的lp。 (12),空間複雜l1變爲O(D1MN),時間複雜度爲O(D1MN)。 通常,l1的複雜性會從二次降低到線性 我們期待是N。這個結構良好的方程可以重複使用某些中間結果。此外,GPU中很容易加速矩陣運算

更一般地,我們在本節末,我們討論K階分解。我們應該指出 ,只有強有力的第一階分解假設。 一般的矩陣分解方法可以派生的

在這種情況下,這種一般分解更多用較弱的假設表達,但也導致模型複雜度上升K倍

 

C. Outer Product-based Neural Netw

取一對向量進行向量內積,然後作爲輸入和輸出標量。 與此不同,向量外積需要一對矢量併產生一個矩陣。 IPNN通過內積方式來定義特徵交叉,而在本節中,我們討論基於“外積”的神經網絡(OPNN)

IPNN和OPNN之間的唯一區別是二次項p。 在OPNN中,我們定義了特徵交互,因此在P中的每一個元素,都是一個平方矩陣

在計算l1的時候,空間複雜度是  O(D1 * M * M * N * N),時間複雜度是 O(D1 * M * M * N * N),回想一下,D1和M是網絡架構的超參數,其中M是向量維度,N是輸入字段的數量,這個實現在實踐中是昂貴的。 爲了降低複雜性,我們建議超級的想法

通過逐元素疊加,我們可以通過一大步減少複雜性。 具體來說,我們重新定義p公式

 

D. Discussions

與FNN [12]相比,PNN具有點乘層。 如果除去點乘層的lp部分,PNN與和FNN相同。 對於內積來說,PNN和FM [20]非常相似:如果沒有隱藏層和輸出層簡單地總結一致的重量,PNN和FM是相同的。 受Net2Net [21]的啓發,我們可以先訓練一部分PNN(例如,FNN或FM部分)作爲初始化,和然後開始讓反向傳播遍及整個網絡。產生的PNN至少應該與FNN或FM一樣好。

通常,PNN使用點乘層來探索特徵交叉方案。 向量點乘可以被視爲一系列加法/乘法運算。 內積和外積只是兩個實現。 事實上,我們可以定義更普遍或更復雜的點乘層,獲得PNN更好地探索特徵交互

類似於電子電路,加法就像“或”門一樣而乘法就像“AND”門,點乘層是在學習除特徵之外的規則。回顧計算機視覺的場景,而圖像中的像素是真實的原始特徵,Web應用程序中的分類數據具有高水平和豐富意義的人工特徵。邏輯是處理概念,域的強大工具和人際關係。 因此我們相信引進產品神經網絡中的操作將提高網絡的能力用於建模多場分類數據。

 

IV。實驗

在本節中,我們將詳細介紹我們的實驗,包括數據集,數據處理,實驗設置,模型比較,以及相應的分析1。 在我們的實驗中,PNN模型優於主要的最先進模型在兩個真實世界數據集的CTR估算任務中。

在論文的剩餘部分是在討論自己的實驗結果,不涉及到算法原理,所以有興趣的可以自己去了解下

 

論文傳送門:https://arxiv.org/pdf/1611.00144.pdf

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章