Neural Feature Embedding for User Response Prediction in Real-Time Bidding (RTB) by Enno Shioji, Masayuki Arai. ArXiv 2017.
https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/TADBY7
https://arxiv.org/pdf/1702.00855.pdf
0 摘要
在廣告定位領域,預測用戶響應對於許多應用程序(如實時出價(RTB))至關重要。此域中提供的許多特徵都是稀疏的分類特徵。
這提出了一個挑戰,特別是當用戶預測的響應很少時,因爲每個特徵只有很少的正樣本。(用戶很多時候是不響應的,所以正樣本少,比如說看廣告,用戶可能看100個廣告,只點擊一個廣告)
最近,已經證明在諸如語料庫中使用出現次數統計來學習單詞的分佈式表示的諸如word2vec之類的神經嵌入技術在許多自然語言處理任務中是有效的。
在本文中,我們使用真實世界的數據集來表明類似的技術可用於學習用戶網絡歷史中的特徵的分佈式表示,並且這種表示可用於提高常用模型的準確性以預測稀有的用戶響應。
1 介紹
在給定廣告印象的情況下預測用戶響應的可能性(例如點擊,轉換等)對於許多廣告應用(例如實時出價(RTB))是至關重要的。由於其時效性,邏輯迴歸等線性模型是最廣泛用於此目的[1]的模型。
模型通常在稀疏分類特徵上訓練,例如用戶代理,訪問過的網站的ID等,它們通過單熱編碼被編碼爲稀疏二進制特徵[1]。這些模型的一個突出問題是數據的稀疏性。特別是當使用特徵交互時,特徵表示變得非常稀疏,使得難以有效地利用特徵。
此外,傳統上該行業一直專注於預測點擊率,但最近焦點已經轉移到優化其他更罕見的用戶響應,如轉換,這加劇了這個問題[2]。我們將此問題稱爲特徵稀疏性問題。
類似的問題已在自然語言處理(NLP)[3]中被承認。許多主流模型依賴於詞袋錶示,其遭受上述相同問題的困擾。
最近,已經證明,將單詞和文檔映射到低維向量空間的稱爲word2vec,paragraph2vec等的神經嵌入技術在各種NLP任務中產生了最先進的結果[4,5]。
在該方法中,使用語料庫中的occurence statisticss學習更泛化的分佈式單詞表示。
在本文中,我們使用真實數據集來表明類似的技術可以應用於RTB中的用戶響應預測。與自然語言處理中的情況類似,可以使用大量用戶網絡歷史來學習高質量的特徵表示,然後可以用於預測(罕見的)用戶響應。
該技術被證明可以提高常用模型的準確性,特別是當標記數據很少時。
2 相關工作
已經採用各種方法來解決特徵稀疏性問題。例如,從人類註釋中獲得的高階類別信息,或者通過諸如主題建模,聚類等無監督方法從數據中獲得的更高階類別信息[6,7]已被用於改進泛化。其他技術,如計數特徵也可以通過允許罕見特徵共同作出貢獻[8]。
另一類解決方案涉及將稀疏分類特徵嵌入到低維向量空間中。
已經結合深度神經網絡研究了產生密集特徵的各種特徵變換方法,從而改進了主要的最新模型[6]。
張等人。 他們還調查了一個框架,他們稱之爲隱式外觀建模,其中使用一般的網頁瀏覽行爲和廣告響應行爲數據將用戶,網頁,廣告等實體映射到潛在的向量空間[9]。
在本文中,我們報告了將類似於神經詞嵌入的特徵變換技術應用於RTB中的用戶響應預測的初始結果。該技術已成功應用於其他領域,如產品推薦[10,11]。
該技術與NLP中的對應物具有相同的優勢,例如編碼特徵序列的能力,使用新數據逐步更新嵌入的能力,以及自其出現以來已開發的衆多改進和擴展的可用性。
結果爲應用已成功用於神經詞嵌入的技術(如深度神經網絡)提供了令人興奮的機會。
3 用戶相應預測的神經特徵嵌入
我們首先簡要概述Mikolov等[12]開發的神經詞嵌入技術。我們考慮一種最簡單的形式,即具有單個上下文窗口的連續詞袋模型(CBOW)(ps:關於CBOW可以看 cs224n課程筆記2 )給定語料庫中的單詞 t 和前一單詞 c ,我們對θ進行參數化,使得語料庫中,條件概率最大化。可以使用soft-max建模,如下所示:
其中和分別是 t 和 c 的向量化表示,C 是所有可能的contexts。 是確定嵌入大小的超參數,並且是根據經驗選擇的。請注意,我們根據文獻使用不同的target( t )和context( c )。這個目標很簡單,但計算成本很高。
爲了緩解這個問題,使用了一種稱爲負採樣[12]的技術,其中 (t, c) 的隨機對是從語料庫中採樣的,假設它們是錯誤的。(ps:關於CBOW可以看 cs224n課程筆記2 )
這產生了以下目標:
其中 D 是語料庫中所有目標-上下文對(target, context)的集合,D’ 是隨機生成的(t, c)對。 現在計算的成本很便宜。
在本文中,我們考慮一個由廣告展示組成的數據集。向用戶顯示廣告時,該用戶的某些瀏覽歷史記錄可用作內容ID序列。因此,將諸如CBOW [12],skip-gram [12]等技術應用於該數據是相對簡單的。對於該實驗,我們選擇丟棄內容ID的序列並僅使用共現信息。
更具體地說,我們通過從用戶在印象時消耗的內容ID集合中隨機抽樣內容ID來生成我們的正樣本對,並且從語料庫中隨機抽取我們的負樣本對。衆所周知,這種採樣的概率分佈會影響嵌入的質量[4],但我們對這個初始實驗使用了均勻分佈。然後,我們使用結果內容嵌入作爲用戶響應模型中的特徵,我們使用邏輯迴歸來做分類。
4 實驗和討論
4.1 數據集
我們使用了Adform提供的真實RTB數據集。數據中的每條記錄都對應一個廣告印象,並按時間順序排序。該記錄包含一個二進制標籤,用於指示用戶隨後是否點擊了廣告(點擊),以及用戶在過去30天內消費的一組內容ID(content_ids),直至展示時間。
數據來自Adform的2016年7月印象日誌。過濾掉沒有content_ids可用的記錄。此外,由於數據極不平衡,因此以0.01的比率對負例進行下采樣。在下采樣之後,總共有5.0M的例子,有1.1M的正例。共有891K個不同的內容ID。已發佈了具有附加字段的更新,更大版本的數據集[13]。content_ids對應於此數據集中的特徵c9。
4.2 實驗協議
該實驗包括無監督階段和監督階段。
- 無監督的階段 如上所述,從content_ids學習context embedding。即 click字段被丟棄,不用於此階段。在5.0M數據實例中,最舊的4.0M用於此階段。我們用不同的嵌入尺寸n()訓練嵌入。Tensorflow [14]用於實現這一階段。
- 有監督的階段 在監督階段,使用不同的特徵訓練預測點擊的二元分類器(見下文)。對於所有實驗,使用具有L2歸一化的Logistic迴歸。在剩餘的1.0M數據實例中,最新的30%(300K)被保留爲驗證數據集。使用從剩餘數據(700K)中隨機取樣的不同數量的數據(0.3K,1K,10K,100K)進行訓練。爲了評估模型的性能,使用ROC曲線下面積(AUC),這是評估RTB中用戶響應預測模型的常用度量[1]。採用不同的正則化強度()和嵌入尺寸進行網格搜索,最佳結果用作測量。scikit-learn [15]用於實施。
以下是我們比較的特徵列表:- SR 稀疏二進制。content_ids通過單熱編碼被編碼爲稀疏二進制特徵。這是我們的baseline。
- DR分佈式表示。所得嵌入的每個維度按其最大絕對值進行縮放。對於content_ids中的每個content_id,查找相應的嵌入,並將嵌入的平均值用作特徵向量。因此,所得到的特徵向量具有與嵌入相同的長度n。
- SR+DR稀疏二進制和分佈式表示。連接SB和DR的特徵向量。
4.3 性能比較和討論
表1顯示了使用上述網格搜索獲得的每種條件的最佳結果。 將SB + DR和DR的結果與SB(我們的基線)進行比較。當訓練數據稀缺時,DR優於SB。 SB + DR在所有條件下都優於SB,尤其是在訓練數據稀少時更強。這可能是因爲當訓練數據稀缺時,稀疏性問題更加嚴重,因此跨特徵推廣的能力具有更大的影響。然而,當大量數據可用時,DR的低維特徵表示可能限制各個內容ID之間的區分程度。當SB和DR連接時,可以保留兩個優點。
圖1顯示了針對不同嵌入尺寸(n)的DR和SB + DR的SB基線的AUC差異。增加n會改善AUC,但是在大約16維後,回報會減少。
5 推論
在本文中,我們報告了使用真實數據集將神經特徵嵌入技術應用於RTB中用戶響應預測的初步結果。據我們所知,這是第一次將此技術應用於此問題。我們已經證明該技術可以提高業內常用模型的性能,特別是當標記數據稀缺時,特徵稀疏性問題最爲嚴重。大量數據可以容易地用於訓練特徵嵌入,並且常用的邏輯迴歸可以在預測時使用,這使得該結果成爲工業實現的理想選擇。
結果還爲應用基於神經詞嵌入的改進和技術提供了令人興奮的機會,例如整合全局上下文,使用每個單詞的多個表示[16],使用目標標籤優化特定監督任務的嵌入[17] ,使用全局對數雙線性迴歸代替早期的局部上下文窗口方法[18],在嵌入等上應用深度神經網絡。
6 參考文獻
- Wang, J., Zhang, W., Yuan, S.: Display advertising with real-time bidding (RTB)
and behavioural targeting. CoRR abs/1610.03013 (2016) - Dalessandro, B., Hook, R., Perlich, C., Provost, F.: Evaluating and Optimizing
Online Advertising: Forget the Click, But There are Good Proxies. Social Science
Research Network Working Paper Series (October 2012) - Bengio, Y., Ducharme, R., Vincent, P., Janvin, C.: A neural probabilistic language
model. J. Mach. Learn. Res. 3 (March 2003) 1137–1155 - Mikolov, T., Sutskever, I., Chen, K., Corrado, G., Dean, J.: Distributed representations
of words and phrases and their compositionality. CoRR abs/1310.4546
(2013) - Le, Q.V., Mikolov, T.: Distributed representations of sentences and documents.
CoRR abs/1405.4053 (2014) - Zhang, W., Du, T., Wang, J.: Deep learning over multi-field categorical data: A
case study on user response prediction. CoRR abs/1601.02376 (2016) - Zhang, W., Yuan, S., Wang, J.: Real-time bidding benchmarking with ipinyou
dataset. CoRR abs/1407.7073 (2014) - He, X., Pan, J., Jin, O., Xu, T., Liu, B., Xu, T., Shi, Y., Atallah, A., Herbrich,
R., Bowers, S., Candela, J.Q.n.: Practical lessons from predicting clicks on ads at
facebook. In: Proceedings of the Eighth International Workshop on Data Mining
for Online Advertising. ADKDD’14, New York, NY, USA, ACM (2014) 5:1–5:9 - Zhang, W., Chen, L., Wang, J.: Implicit look-alike modelling in display ads: Transfer
collaborative filtering to CTR estimation. CoRR abs/1601.02377 (2016) - Nedelec, T., Smirnova, E., Vasile, F.: Content2vec: Specializing joint representations
of product images and text for the task of product recommendation. Unpublished
Manuscript (2017) - Barkan, O., Koenigstein, N.: Item2vec: Neural item embedding for collaborative
filtering. CoRR abs/1603.04259 (2016) - Mikolov, T., Chen, K., Corrado, G., Dean, J.: Efficient estimation of word representations
in vector space. CoRR abs/1301.3781 (2013) - Shioji, E.: Adform click prediction dataset. Harvard Dataverse
doi:10.7910/DVN/TADBY7 (2017) - Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M., Ghemawat,
S., Irving, G., Isard, M., Kudlur, M., Levenberg, J., Monga, R., Moore, S.,
Murray, D.G., Steiner, B., Tucker, P.A., Vasudevan, V., Warden, P., Wicke, M.,
Yu, Y., Zhang, X.: Tensorflow: A system for large-scale machine learning. CoRR
abs/1605.08695 (2016) - Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O.,
Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A.,
Cournapeau, D., Brucher, M., Perrot, M., Duchesnay, E.: Scikit-learn: Machine
learning in Python. Journal of Machine Learning Research 12 (2011) 2825–2830 - Huang, E.H., Socher, R., Manning, C.D., Ng, A.Y.: Improving word representations
via global context and multiple word prototypes. In: Proceedings of the 50th
Annual Meeting of the Association for Computational Linguistics: Long PapersVolume
1, Association for Computational Linguistics (2012) 873–882 - Labutov, I., Lipson, H.: Re-embedding words. (2013)
- Pennington, J., Socher, R., Manning, C.D.: Glove: Global vectors for word representation.
In: Empirical Methods in Natural Language Processing (EMNLP).
(2014) 1532–1543