【CTR預估】Deep & Cross Network 模型

原創

2020-06-01 00:10

DCN模型是組合了顯式和隱式特徵交叉的一個模型。如果瞭解WD模型的話，簡單的說這篇文章就是把WD模型的wide側改成了cross網絡，用來顯式的做一些特徵的交叉，因爲DNN雖然有着擬合任意模型的能力，但是世界上沒有免費的午餐，所以顯式的定義特徵交叉還是很有必要的。

論文下載地址：https://arxiv.org/pdf/1708.05123.pdf

這裏我對一些常用的ctr預估模型進行了復現，其中也包括了DCN模型，可以參考一些：https://github.com/Shicoder/Deep_Rec/blob/master/Deep_Rank

1.模型結構

結構圖如下所示：

2.模型輸入

我們從下到上，先看模型的輸入，如下所示

這個也是推薦領域常見的輸入方式，將實值類的特徵stack起來，稀疏的類別特徵做embedding。然後整體concat起來作爲模型的輸入。

3.模型核心結構

再往上走一步

先看右邊的模型，就是一個正常的全連接網絡。

關鍵的是左邊的cross 網絡。

如果直接看圖上的公式會有點誤導，直接看文章給出的每一層x的計算公式和具體的可視化圖

公式：

交叉層可視化圖：

這樣就比較清楚了，每一層的計算中都有,是一個列向量，所以 $x_0*x{}'$ 這個計算過程相當於把交叉網絡輸入的每個維度分發到不同的維度上,再利用w把分發出去的值合併起來，以此來達到交叉特徵的效果。

舉個栗子?

假設輸入的是一個三維的向量 $x_0=[x_{01},x_{02},x_{03}]$ ，那麼第一層交叉層的計算如下圖：

看一下過程就很清楚了。

而每一層中的參數只有和 ,如果輸入數據的維度是d，交叉層的層數是,那麼整個交叉網絡的參數只有d*L*2，也大大減少了參數的數量。

4.最後的輸出

交叉網絡和深度網絡的輸出是他們最後一層神經網絡節點值。這裏和wide and deep 模型不同的是，wide and deep模型最後的輸出只有一個節點，模型直接將wide和deep兩個子模型的輸出的單個值加起來送入激活函數。

而這裏是將cross網絡輸出的向量和deep輸出的向量concate起來，再做一層的全連接，才送入激活函數。

具體實現代碼github上很多。

完

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【CTR預估】Deep & Cross Network 模型

1.模型結構

2.模型輸入

3.模型核心結構

舉個栗子?

4.最後的輸出

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

[CTR預估] Recommending What Video to Watch Next

【CTR預估】 xDeepFM模型

【GCN】: IntentGC算法框架

【基於序列的推薦】：Session-based Recommendations with Recurrent Neural Networks （附開源代碼）

【Transformer模型】：Attention is all your need(附attention的代碼)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結