【CTR預估】DSIN模型

原創

2020-06-01 00:10

最近看了一篇文章‘Deep Session Interest Network for Click-Through Rate Prediction’, 這篇是阿里發表在IJCAI2019的文章。

文章地址：https://arxiv.org/abs/1905.06482

作者還開源了代碼：https://github.com/hhh920406/DSIN

淘寶最近也公開了一個rank模型，和這個有一點點像，也可以看看，模型要比這個要簡單點：https://mp.weixin.qq.com/s/1y8jTqCcI7HkMA3qXtqdIg

模型是用於CTR預估的，整個模型在傳統的DNN模型基礎上，加上了tranformer結構和Bi-LSTM來分別捕捉session內和session間的內在聯繫，最後通過attention機制對目標item和由兩個結構生成的session內順序信息和session之間順序信息加權輸出，和用戶畫像embedding，以及item畫像embedding一起concate起來，送入MLP裏做分類。整體給我的感覺是思路很棒，但是感覺這個預估模型有點重，像我這種小公司的線上服務rt還不一定能用起來......

Based model

文章先大概介紹了一下使用DNN來構造ctr預估模型的一個基本框架。

1.embedding。這個是必須的，一般稀疏類別特徵，不出意外都可以用embedding來操作。這個一方面可以降低輸入的維度，還可以將特徵映射到高緯空間學習出不同特徵值之間的距離，而不是像onehot一樣，每個特徵值都一樣。當然還有好多優點，比如方便後續計算，使用；方便將不同域的特徵映射到同一空間進行比較等等，優點多多。

2.MLP。基本上將稀疏類別特徵embedding化後，和稠密特徵一起concate起來就可以直接送入神經網絡，進行訓練，這樣就可以組成一個基本的DNN網絡，用於分類，迴歸等。

DSIN模型

如上圖所示是模型的整體結構，左側的User Field 和Item Field就是上面說的稀疏類別特徵的embedding和稠密特徵的組合，這裏按user和item做了區分。文章的核心工作在右邊這塊。

從下到上

Session Divsion Layer

這塊的工作是將用戶的歷史行爲劃分成不同session，將歷史行爲的items以三十分鐘爲界，劃分成不同的session。並且爲了保持維度的一致，每個session的長度是一致的，多了的截斷，少了的按0填充。session的個數也保持一致。

Q就是一個session，b表示session的行爲。

Session Interest Extractor Layer

這一步的目的就是去捕獲session list中每個session內部的行爲關係。將session作爲輸入，送入tranformer結構。

session在送入tranformer之前使用了一個操作Bias Encoding.

用了三個矩陣分別對session本身，session中的每個位置，每個位置處id的embedding的每個維度都加上了一個偏置項。源碼如下：

然後將偏置項加入到輸入的session list中

這一步應該算是對原始tranformer中position encoding的優化，利用偏置項來區分不同位置session，不同位置的item，以及不同位置的embedding值。

接着把經過Bias Encoding處理的輸入session list傳入tranformer結構裏：

tranformer輸出的結果被再次輸入一個前向網絡裏面做了一層映射

然後再用average pooling把每個session的維度進行壓縮：

到這爲止，或得到了每個session的一個內在表示，就是圖裏面的：

Session Interest Interacting Layer

文章爲了捕獲不同session之間的順序關係，使用了Bi-LSTM。Bi-LSTM是雙向的，可以同時捕獲上下文關係。

因此經過Bi-LSTM編碼的輸入，每個維度的輸出向量其實都包含了輸入數據同一位置的前後信息。這步獲得的數據是圖中的：

到這爲止，模型已經同時捕獲到了session內部和session之間的順序關係。如果想簡單一點，直接把這兩者的輸出結果和圖中左側的畫像特徵concate起來也可以。不過文章作者在concate前對兩者的輸出做了一層attention，用來判斷sesison信息和目標item之間的相關性。

Session Interest Activating Layer

attention的query就是公式中的X，就是目標item的embedding。item的embedding是item畫像特徵所有embedding一起concate起來獲得的。value和key就是前面獲得兩個輸出I和H。

最後把以上這些向量都組合起來送入DNN中進行訓練。

文章總的來說，思路清晰，之前看過一些文章基本只會去考慮session內部的關係，很少有考慮session之間的關係，還把NLP中的tranformer模型用到了ctr預估。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

5月21日，文心中國行將走進上海，在張江科學會堂舉行。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，主要圍繞大模型技術如何賦能產業級應用創新展開探討，還有百度風投從投資視角帶來的觀點，讓參會者全方位瞭解

2024-05-17 00:28:21

網絡爬蟲安全：90後小夥，用軟件非法搬運他人原創視頻被判刑

央視《今日說法》欄目近日報道了一名程序員開發非法視頻搬運軟件獲利超700多萬，最終獲刑的案例。國內某知名短視頻平臺報警稱，有人在網絡上售賣一款視頻搬運軟件，使用軟件的人可以繞過平臺的審覈機制，一鍵“搬運”竊取他人作品非法轉載投稿。警方調查

2024-05-16 00:19:26

探索大語言模型：理解Self Attention| 京東物流技術團隊

一、背景知識在ChatGPT引發全球關注之後，學習和運用大型語言模型迅速成爲了熱門趨勢。作爲程序員，我們不僅要理解其表象，更要探究其背後的原理。究竟是什麼使得ChatGPT能夠實現如此卓越的問答性能？自注意力機制的巧妙融入無疑是關鍵因素

2024-05-14 23:57:26

GPU 硬件指標說明

流處理器：也叫渲染管、着色器。畫面都是由一個又一個像素點組成的，而流處理器就負責這些像素點的渲染工作； RT核心：光追核心，用作於光線追蹤效果； CUDA 核心和Tensor 核心：CUDA Core和Tensor Core，爲G

2024-05-13 22:35:43

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

AIGC在京東廣告創意的技術應用

一、前言電商廣告圖片不僅能夠抓住消費者的眼球，還可以傳遞品牌核心價值和故事，建立起與消費者之間的情感聯繫。然而現有的廣告圖片大多依賴人工製作，存在效率和成本的限制。儘管最近AIGC技術取得了卓越的進展，但其在廣告圖片的應

京東雲開發者

2024-05-08 23:24:18

AI繪圖新選擇：Fooocus工具發佈，小顯存助力大模型運行

隨着人工智能技術的飛速發展，AI繪圖工具已經成爲了衆多創作者們的得力助手。它們能夠基於深度學習算法，快速生成高質量的圖像，爲設計、藝術等領域注入了新的活力。然而，傳統的AI繪圖工具往往對硬件要求較高，使得許多擁有較低配置設備的用戶望而卻步。

2024-05-07 23:30:10

GLM國產大模型訓練加速：高效性能與成本優化的實踐

隨着人工智能技術的不斷進步，大模型的訓練成爲了推動深度學習領域發展的重要力量。然而，傳統的訓練方式往往面臨着性能瓶頸和高昂的成本問題，這使得許多研究者和開發者望而卻步。爲了解決這一難題，我們探索了使用OneFlow框架對GLM國產大模型進行

2024-05-07 23:30:09

LoRA微調語言大模型的實用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

京東廣告研發——效率爲王：廣告統一檢索平臺實踐

1、系統概述實踐證明，將互聯網流量變現的在線廣告是互聯網最成功的商業模式，而電商場景是在線廣告的核心場景。京東服務中國數億的用戶和大量的商家，商品池海量。平臺在兼顧用戶體驗、平臺、廣告主收益的前提推送商品具有挑戰性。京東廣告檢索平臺

2024-04-25 23:17:47

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

大模型區域落地再加速！百度“文心中國行”西部首站落地成都錦江

4 月 24 日，“文心中國行”西部地區首站落地成都錦江。成都市錦江區白鷺灣新經濟總部功能區、錦江區投資促進局與百度飛槳攜手合作，打造成都人工智能的新產業、新模式、新業態。來自成都政產學研各界的領導、專家、企業嘉賓，共同探討如何降低 AI

2024-04-25 11:41:53

文心中國行走進成都！4 月 24 日一起把握大模型時代的產業新機遇

4 月 24 日，文心中國行將走進成都。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，從人工智能政策解讀、大模型技術，到產業創新應用的實踐案例，讓參會者全方位瞭解大模型時期的發展與創新機遇。大會還特別

2024-04-23 11:41:07

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

24小時熱門文章

最新文章

最新評論文章