谷歌CTR預估模型——deep&cross(DCN)

提出動機

解決交叉特徵學習問題，雖然傳統的FM模型可以學習到二階交叉特徵，對於高階交叉特徵，需要大量的參數，在deep&wide模型，wide部分需要手動進行特徵工程，deep&cross模型在wide部分實現了自動生成高階交叉特徵，並使用了resnet的形式。

網絡形式

經過公共的embedding和stacking層，左邊爲cross network，右邊爲deep network。

Embedding and stacking layer

該層對特徵進行拼接成input，對於Dense特徵直接拼接，對於sparse特徵首先進行embedding，將生成的稠密向量與dense特徵進行拼接

Cross network

交叉網絡結構如下

表達式爲 $\mathbf{x}_{l+1}=\mathbf{x}_{0} \mathbf{x}_{l}^{T} \mathbf{w}_{l}+\mathbf{b}_{l}+\mathbf{x}_{l}=f\left(\mathbf{x}_{l}, \mathbf{w}_{l}, \mathbf{b}_{l}\right)+\mathbf{x}_{l}$
對於第 $l$ 層的輸出 $x_{l+1}$ ，由原始輸入 $x_{0}$ 和上一層的輸入 $x_{l}$ 相乘得到，從而產生高階交叉特徵。這裏使用了resnet的形式 $y = f(x)+x$ ，使得網絡結構更具有魯棒性。

注意cross部分維度映射是由 $\mathbb{R}^{d} \mapsto \mathbb{R}^{d}$ 的，所以該部分總參數爲：
$d \times L_{c} \times 2$ d是輸入特徵的維度， $L_{c}$ 是cross網絡的層數。

Deep network

deep部分跟傳統DNN相同，由若干個全連接層相連，第 $l+1$ 個隱藏層表達式爲：
$\mathbf{h}_{l+1}=f\left(W_{l} \mathbf{h}_{l}+\mathbf{b}_{l}\right)$ 其中： $W_{l} \in \mathbb{R}^{n_{l+1} \times n_{l}}, \mathbf{b}_{l} \in \mathbb{R}^{n_{l+1}}$
所以整個deep 部分參數個數爲：
$d \times m+m+\left(m^{2}+m\right) \times\left(L_{d}-1\right)$

Combination layer

最終，將cross部分和deep部分的輸出結果，合併到一起，
$p=\sigma\left(\left[\mathbf{x}_{L_{1}}^{T}, \mathbf{h}_{L_{2}}^{T}\right] \mathbf{w}_{\mathrm{logits}}\right)$

其中：
$\mathbf{x}_{L_{1}} \in \mathbb{R}^{d}, \mathbf{h}_{L_{2}} \in \mathbb{R}^{m}，\mathbf{w}_{\text {logits }} \in \mathbb{R}^{(d+m)}，\sigma(x)=1 /(1+\exp (-x))$
$w_{logits}$ 可以看做合併向量乘上的權重

最終，損失函數由交叉熵和正則項構成：+
$\operatorname{loss}=-\frac{1}{N} \sum_{i=1}^{N} y_{i} \log \left(p_{i}\right)+\left(1-y_{i}\right) \log \left(1-p_{i}\right)+\lambda \sum_{l}\left\|\mathbf{w}_{l}\right\|^{2}$

參考資料

https://arxiv.org/abs/1708.05123

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

谷歌CTR預估模型——deep&cross(DCN)

提出動機

網絡形式

Embedding and stacking layer

Cross network

Deep network

Combination layer

參考資料

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

pandas對不同類型的column進行fillna

Keras 搭建神經網絡的簡單pipeline

將conda環境導入Jupyter

ImportError: cannot import name create_prompt_application

Jupyter設置代理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結