【華爲雲技術分享】原來CTR預估模型的發展有這樣的規律

【摘要】 CTR預估模型的發展有什麼樣的規律呢?本文分別從前深度學習時代和深度學習時代CTR預估模型中分析總結出了一般性的發展規律,通過這個規律更有助於幫我們理解和加深CTR預估模型。

前深度學習時代

在深度學習還沒有引入到點擊率(Click-Through Rate,CTR)預估之前,CTR預估的模型大概經歷了三個階段:邏輯迴歸(Logistic Regression,LR),因子分解機(Factorization Machine,FM)、梯度提升樹(Gradient Boosting Decision Tree,GBDT)。

經典的邏輯迴歸算法由於其強的可解釋性與易工程化而在工業界被大量應用,但是由於LR在高階特徵構造上的缺陷,其算法性能受到了侷限。因此又有人提出了結合一階和二階特徵的因子分解機模型,該模型相比於LR,增加了交叉特徵的構造,性能得到了提升。但是由於FM也只能夠做二階的特徵交叉,因此後來又有了梯度提升樹的提出。梯度提升樹可以得到更高階的特徵組合,樹越深,越高階。因此通過仔細分析發現,基本上模型的發展有着這麼一條規律:往更好地構造高階特徵的發展。具體地通過舉例分析,首先我們仔細理解一下特徵,根據我個人的理解,給特徵如下解釋:

特徵是刻畫事物的數字化抽象,那麼何謂高階特徵呢?具體來講就是更加抽象的特徵。例如描述一個人說個子高,身材瘦,這是一階特徵,也是最直接的描述,那麼通過這個映射:

1578015927578469.png

可以數字化爲二維的特徵(1,1),接着往高一層抽象我們描述這個人可以說成高挑,通過這個映射:

1578015952368573.png

我們可以數字化爲一維的特徵(0),而這個空間維度特徵就是更加抽象的數字化描述。進一步的,我們仔細可以欣賞一下2019感動中國十大人物之一的鐘楊頒獎詞:

超越海拔六千米,抵達植物生長的最高極限,跋涉十六年,把論文寫滿高原。倒下的時候雙肩包裏藏着你的初心、誓言和未了的心願。你熱愛的藏波羅花,不屑於雕樑畫棟,只綻放在高山礫石之間。

可以看出這段話特徵鮮明,即使不知道人名,也可以看出能得到如此高讚的人寥寥無幾。這段話的特點就是用了很簡短的語言但是表達出了一個特徵鮮明的大人物,這也就是高階特徵的特點,更加抽象,更加特徵鮮明。所以高階特徵的表達能力更高,更能用來區分類別。

深度學習時代

當把深度學習的方法引入到CTR預估中,可謂是百花齊放,這裏舉一些經典的網絡,像16年發表的論文FNN [1],爲了避免完全從隨機狀態訓練Embedding,通過FM的隱層向量作爲user和item的Embedding,然後再通過隱含層進行全連接也就是特徵交叉操作來實現高階特徵的提取,如圖 1:

1578016071217390.png

▲ 圖1.  FNN模型結構 [1]

還有在embedding層和全連接層之間加入了Product Layer的PNN [2],其product操作在不同特徵embedding之間進行特徵組合,隨後再加上全連接完成高階特徵的提取。其中product操作又分爲inner product,outer product等多種product操作,用來捕捉不同的交叉信息,增強模型的高階特徵提取能力。如圖 2:

1578016102407898.png

▲ 圖2.  PNN模型結構 [2]

而像Wide&Deep,DeepFM,DCN,NFM這些模型同樣也是在高階特徵的提取上下了不少功夫,不同的是這些模型延續Wide&Deep採用兩路方式的框架來提取高階特徵,如圖 3 爲Wide&Deep [3] 模型結構,左邊是wide部分直接把原始的特徵不經過模型處理連接到輸出,而右邊的deep部分對輸入進行多層感知機提取高階特徵之後連接到輸出。

1578016128972876.png

▲ 圖3.  Wide&Deep模型結構 [3]

那麼接下來看DeepFM是怎樣在這個基礎上沿着構建更好的高階特徵提取結構的思路上發展的,如圖 4 爲DeepFM [4] 模型結構,可以看出,該模型基本上是把wide部分替換成了FM結構,相當於左邊是FM來提取二階特徵,右邊是多層感知機提取高階特徵。

1578016150138107.png

▲ 圖4.  DeepFM模型結構 [4]

同樣的看DCN [5],如圖 5 所示

1578016171199506.png

▲ 圖5.  DCN模型結構 [5]

 

使用提出的可以更好進行高階特徵提取的Cross操作來替代原來的Wide部分,具體操作如下:

1578016193684682.png

把原始輸入x0和cross layer輸入xl加權重矩陣相乘,再加上cross layer輸入xl和偏置bl。還有通過權重來更好地調整和學習交叉特徵的AFM [6],DIN [7],DIEN [8],AutoInt [9],FiBiNET [10]等,基本上這些網絡都希望能更好地自動學習到高階特徵。由此可見,在深度學習時代,CTR模型的迭代發展也是在找一個更好的可以得到強表達能力的高階特徵的構造方面發展。

 

後深度學習時代

這個時代目前來看還沒有出現,但是可以大膽的預測一下,也許是一個比深度學習可解釋性更強的理論誕生的時代,通過理論指導方法,可以設計出更加穩定性能更好模型,而這個模型也許同樣遵從這個規律,是往更好的高階特徵構造發展的模型。

 

 

參考文獻

[1][FNN] Deep Learning over Multi-field Categorical Data (UCL 2016)

[2][PNN] Product-based Neural Networks for User Response Prediction (SJTU 2016)

[3][Wide&Deep] Wide & Deep Learning for Recommender Systems (Google 2016)

[4][DeepFM] A Factorization-Machine based Neural Network for CTR Prediction (HIT-Huawei 2017)

[5][DCN] Deep & Cross Network for Ad Click Predictions (Stanford 2017)

[6][AFM] Attentional Factorization Machines - Learning the Weight of Feature Interactions via Attention Networks (ZJU 2017)

[7][DIN] Deep Interest Network for Click-Through Rate Prediction (Alibaba 2018)

[8][DIEN] Deep Interest Evolution Network for Click-Through Rate Prediction (Alibaba 2019)

[9][AutoInt] AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks (2018 arxiv)

[10][FiBiNET] Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction (RecSys 2019)

作者:wanderist

發佈了1023 篇原創文章 · 獲贊 5420 · 訪問量 92萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章