【CTR预估】DSIN模型

原創

2020-06-01 00:10

最近看了一篇文章‘Deep Session Interest Network for Click-Through Rate Prediction’, 这篇是阿里发表在IJCAI2019的文章。

文章地址：https://arxiv.org/abs/1905.06482

作者还开源了代码：https://github.com/hhh920406/DSIN

淘宝最近也公开了一个rank模型，和这个有一点点像，也可以看看，模型要比这个要简单点：https://mp.weixin.qq.com/s/1y8jTqCcI7HkMA3qXtqdIg

模型是用于CTR预估的，整个模型在传统的DNN模型基础上，加上了tranformer结构和Bi-LSTM来分别捕捉session内和session间的内在联系，最后通过attention机制对目标item和由两个结构生成的session内顺序信息和session之间顺序信息加权输出，和用户画像embedding，以及item画像embedding一起concate起来，送入MLP里做分类。整体给我的感觉是思路很棒，但是感觉这个预估模型有点重，像我这种小公司的线上服务rt还不一定能用起来......

Based model

文章先大概介绍了一下使用DNN来构造ctr预估模型的一个基本框架。

1.embedding。这个是必须的，一般稀疏类别特征，不出意外都可以用embedding来操作。这个一方面可以降低输入的维度，还可以将特征映射到高纬空间学习出不同特征值之间的距离，而不是像onehot一样，每个特征值都一样。当然还有好多优点，比如方便后续计算，使用；方便将不同域的特征映射到同一空间进行比较等等，优点多多。

2.MLP。基本上将稀疏类别特征embedding化后，和稠密特征一起concate起来就可以直接送入神经网络，进行训练，这样就可以组成一个基本的DNN网络，用于分类，回归等。

DSIN模型

如上图所示是模型的整体结构，左侧的User Field 和Item Field就是上面说的稀疏类别特征的embedding和稠密特征的组合，这里按user和item做了区分。文章的核心工作在右边这块。

从下到上

Session Divsion Layer

这块的工作是将用户的历史行为划分成不同session，将历史行为的items以三十分钟为界，划分成不同的session。并且为了保持维度的一致，每个session的长度是一致的，多了的截断，少了的按0填充。session的个数也保持一致。

Q就是一个session，b表示session的行为。

Session Interest Extractor Layer

这一步的目的就是去捕获session list中每个session内部的行为关系。将session作为输入，送入tranformer结构。

session在送入tranformer之前使用了一个操作Bias Encoding.

用了三个矩阵分别对session本身，session中的每个位置，每个位置处id的embedding的每个维度都加上了一个偏置项。源码如下：

然后将偏置项加入到输入的session list中

这一步应该算是对原始tranformer中position encoding的优化，利用偏置项来区分不同位置session，不同位置的item，以及不同位置的embedding值。

接着把经过Bias Encoding处理的输入session list传入tranformer结构里：

tranformer输出的结果被再次输入一个前向网络里面做了一层映射

然后再用average pooling把每个session的维度进行压缩：

到这为止，或得到了每个session的一个内在表示，就是图里面的：

Session Interest Interacting Layer

文章为了捕获不同session之间的顺序关系，使用了Bi-LSTM。Bi-LSTM是双向的，可以同时捕获上下文关系。

因此经过Bi-LSTM编码的输入，每个维度的输出向量其实都包含了输入数据同一位置的前后信息。这步获得的数据是图中的：

到这为止，模型已经同时捕获到了session内部和session之间的顺序关系。如果想简单一点，直接把这两者的输出结果和图中左侧的画像特征concate起来也可以。不过文章作者在concate前对两者的输出做了一层attention，用来判断sesison信息和目标item之间的相关性。

Session Interest Activating Layer

attention的query就是公式中的X，就是目标item的embedding。item的embedding是item画像特征所有embedding一起concate起来获得的。value和key就是前面获得两个输出I和H。

最后把以上这些向量都组合起来送入DNN中进行训练。

文章总的来说，思路清晰，之前看过一些文章基本只会去考虑session内部的关系，很少有考虑session之间的关系，还把NLP中的tranformer模型用到了ctr预估。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

大模型在推荐系统中的精准推荐策略与实践

引言推薦系統在現代互聯網應用中佔據了極其重要的位置。無論是電商平臺、社交媒體、音樂和視頻流媒體服務，還是新聞和內容推薦系統，推薦系統都在提高用戶體驗和平臺收益方面發揮着關鍵作用。近年來，隨着人工智能和機器學習技術的迅猛發展，大模型（如G

2024-06-06 23:55:10

1300万开发者都在关注的大会！WAVE SUMMIT 2024即将来袭

2024年大模型技術迅猛革新，百度作爲前沿科技風向標的代表性企業動向備受關注。中國AI領域頂級開發者盛會WAVE SUMMIT 深度學習開發者大會2024日漸臨近，將於6月28日在北京望京凱悅酒店正式召開。 WAVE SUMMIT 202

2024-06-14 00:26:15

《网络反不正当竞争规定》9月1日实施，这两类欺诈被重点关注

近日，國家市場監督管理總局公佈《網絡反不正當競爭暫行規定》，自2024年9月1日起施行。《網絡反不正當競爭暫行規定》是爲預防和制止網絡不正當競爭行爲，維護公平競爭的市場秩序，鼓勵創新，保護經營者和消費者的合法權益，促進數字經濟規範持續健康

2024-06-13 00:13:29

618网购节，电商能挡住恶意网络爬虫的攻击吗？

2023年，杭州中院審結了兩起涉及“搬店軟件”的不正當競爭案件。本案的原告是國內某大型知名電子商務平臺的運營主體，而被告則是開發了一款名爲“某搬家快速商品上貨批量發佈”的複製軟件，被控非法獲取平臺商品信息並在其他服務市場銷售。根據原告的訴

2024-06-07 00:14:57

原来Stable Diffusion是这样工作的

stable diffusion是一種潛在擴散模型，可以從文本生成人工智能圖像。爲什麼叫做潛在擴散模型呢？這是因爲與在高維圖像空間中操作不同，它首先將圖像壓縮到潛在空間中，然後再進行操作。在這篇文章中，我們將深入瞭解它到底是如何工作的,還

2024-06-06 21:38:48

什么是LLM大模型训练，详解Transformer结构模型

本文分享自華爲雲社區《LLM 大模型學習必知必會系列(四)：LLM訓練理論篇以及Transformer結構模型詳解》，作者：汀丶。 1.模型/訓練/推理知識介紹深度學習領域所謂的“模型”，是一個複雜的數學公式構成的計算步驟。爲了便於理解

2024-06-04 11:09:34

Prompt Tuning：大模型微调实战

隨着深度學習技術的不斷髮展，大模型在各種任務中取得了顯著的成果。然而，大模型的訓練需要大量的數據和算力，導致在實際應用中受到限制。爲了解決這個問題，研究者們提出了微調的方法，即使用預訓練模型在少量數據上進行訓練，使其適應特定的任務。在Pr

2024-06-03 12:14:42

走进京东“卓越研效架构师”首期研习营圆满收官

五月的北京，春深半夏，花開滿城。由全國雲計算技術行業產教融合共同體牽頭，攜手工業和信息化部電子第五研究所、E³CI軟件研發效能度量工作委員會以及京東雲共同主辦的“走進京東——卓越研效架構師”研習營，於5月17-18日和24-26日在北京京東

2024-05-31 23:55:49

儿童节变身小小音乐家*用ModelArts制作一张AIGC音乐专辑

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺诈指南：车险欺诈为何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

基于Fluid与JindoCache的大模型训练加速实践

隨着人工智能技術的不斷髮展，深度學習模型變得越來越複雜，參數量動輒幾十億甚至上百億。這樣的“大模型”在帶來強大性能的同時，也對訓練過程提出了極高的要求。尤其是在數據加載和計算資源利用方面，傳統的訓練方法往往難以滿足快速、高效的需求。爲此，我

2024-05-28 12:12:15

【终极指南】使用Python可视化分析文本情感倾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

AI安全志：英国AI骗保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

生成式推荐系统与京东联盟广告-综述与应用

大型語言模型（LLM）正在深刻地影響自然語言處理（NLP）領域，其強大的處理各種任務的能力也爲其他領域的從業者帶來了新的探索路徑。推薦系統（RS）作爲解決信息過載的有效手段，已經緊密融入我們的日常生活，如何用LLM有效重塑RS是一個有前

2024-06-13 23:54:45

音频链接抓取技术在Lua中的实现

前言隨着數字音樂的普及，越來越多的用戶選擇在線音樂平臺來享受音樂。網易雲音樂作爲國內領先的音樂服務平臺，不僅提供了豐富的音樂資源，還擁有獨特的社交屬性，吸引了大量的用戶。在衆多的音樂服務中，音頻鏈接的抓取技術成爲了一個重要的需求。無論

2024-05-28 00:07:25

24小時熱門文章

最新文章

最新評論文章