淺析Attention在推薦系統中的應用（3）AutoInt模型

原創

2020-06-22 23:35

歡迎關注本人公衆號： petertalks

專欄目錄：

淺析Attention在推薦系統中的應用（1）Attention簡介

淺析Attention在推薦系統中的應用（2）阿里Deep Interest Network模型

淺析Attention在推薦系統中的應用（3）AutoInt模型

淺析Attention在推薦系統中的應用（4）Transformer與阿里BST模型

前言

前面的文章介紹了attention機制和它的一些應用，本文主要向大家介紹一下CIKM 2019的一篇文章《AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks》。該文主要介紹了一種名叫AutoInt的模型，該模型以multi-head self-attention爲基礎在將高維稀疏特徵（包括連續特徵和類別特徵）映射到低維空間的同時建模高級特徵交叉。相比其他的顯示特徵交叉的模型如Deep cross network、xDeepFM等具有更高的效率和可解釋性。

背景與動機

CTR預估問題在廣告和推薦系統中有着特別重要的地位。而機器學習又在CTR預估中扮演重要角色，其中存在着很多挑戰。首先輸入的往往是離散化後的高維稀疏特徵，很容易造成模型過擬合；其次模型要取得較好的效果做好高階特徵的交叉工作是少不了的，但這塊相當依賴人工經驗，耗費着相當大的人力。所以業界爲能將高階特徵映射到低維並且自動建模高階特徵交叉做了不少的努力和嘗試。

這邊的嘗試總體來講可以分成幾塊：

1）以NFM、PNN、FNN、DeepFM等網絡爲代表的採用隱式的方法利用前向網絡去擬合高階特徵交叉，這類方法缺乏較好的可解釋性。

2）以Deep&Cross和xDeepFM爲代表的網絡採用特徵外積的方式顯示構造高階特徵交叉，但是這種方法也無法直接解釋出哪些特徵交叉是更爲有效。

3）一些樹模型結合了embedding和樹模型的優勢，但卻不得不將訓練分成多個階段。

4）HOFM等高階因子分解機，但這類模型需要太多參數，難以投入實踐。

爲此這篇文章借鑑了attention和圖像領域常用的residual network，提出了AutoInt模型。

模型

模型概覽

AutoInt模型的結構如下圖所示

整體結構較爲清晰，首先是稀疏特徵X（包括類別特徵和連續特徵）作爲輸入，通過Embedding層映射成低維embedding向量，緊接將向量輸入到Interacting Layer，通過multi-head self-attention，捕獲高階特徵交叉。這邊採用multi-head可將特徵映射到不同的空間獲得不同類型的特徵組合，通過疊加多個Interacting Layer可以實現不同階的建模。最後將Interacting Layer產生的向量輸入到輸出層，通過sigmoid函數預估CTR。接下來讓我們來具體看一下每一個模塊。

模型輸入層與Embedding層

模型的輸入是離散化後的User和Item的屬性特徵，每個field代表一類特徵，將這些特徵concat到一起作爲輸入。

到了Embedding層，對於類別特徵直接獲得Embedding，對於多值類的特徵直接採用average pooling的方式取均值。

這邊值得注意的一點是該模型將連續值特徵也進行了Embedding映射，這邊的做法是對每個field學到一個Embedding，然後直接用特徵值和這個field對應的Embedding相乘。

最後將不同field的embedding concat到一起作爲下一層輸入。

特徵交叉層

該層爲整個模型的核心部分，如下圖

很容易看出，該層的核心就是該專欄第一篇文章所介紹的multi-head self-attention。這邊來複習一下公式，首先是self-attention

再來看一下multi-head attention

AutoInt中通過引入self attentin來刻畫不同field之間的關聯關係，加權後得到指定head處的embedding

然後將不同head的輸出concat到一起，獲得不同空間的交叉

爲了保留原始特徵，接下來引入了殘差網絡的結構

通過重複疊加上述的結構，我們可以得到任意不同階的組合特徵。

輸出層

該層的輸入包括殘差網絡(residual block)保留的原始特徵和multi-head self-attention產生的交叉特徵。將所有特徵concat到一起後，用非線性映射直接得到預估結果。

訓練目標

這邊的Loss直接採用交叉熵的方式

通過反向傳播學習出

複雜度分析

空間複雜度

，時間複雜度

，一般來講H,d,d’都較小，所以時間複雜度和空間複雜度都不會太高。

實驗結果

實驗數據

數據預處理

1) 採用頻次過濾，對於低於閾值的特徵直接設成<unkown>。

2) 對於連續型特徵採用和Criteo大賽冠軍一樣的處理，

3）採用80%的數據作爲訓練集，隨機平均切分成驗證集和測試集。

4） batch size=1024，嵌入維度 d=16，Adam優化器。對小數據集MoveLens使用dropout=0.5

5）AutoInt中，Attention轉化矩陣維度d’=32, 3層Interacting，每層2個attention head

6）DeepCross—4隱層+每層100 node，NFM—1隱層+200 node，CrossNet和CIN—3隱層

實驗結果

實驗一單獨模塊

實驗二性能對比

實驗三殘差、Interacting層數、嵌入維度等對效果的影響

實驗四模型都加上Deep部分

AutoInt的效果最好，而且相比其他模型加上Deep部分後提升的幅度最小，這也證明了AutoInt模型結構的有效性。

參考文獻：

https://arxiv.org/pdf/1810.11921.pdf

https://zhuanlan.zhihu.com/p/60185134

https://arxiv.org/abs/1706.03762

https://zhuanlan.zhihu.com/p/69701477

https://zhuanlan.zhihu.com/p/95605853

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

大模型在推薦系統中的精準推薦策略與實踐

引言推薦系統在現代互聯網應用中佔據了極其重要的位置。無論是電商平臺、社交媒體、音樂和視頻流媒體服務，還是新聞和內容推薦系統，推薦系統都在提高用戶體驗和平臺收益方面發揮着關鍵作用。近年來，隨着人工智能和機器學習技術的迅猛發展，大模型（如G

2024-06-06 23:55:10

音頻鏈接抓取技術在Lua中的實現

前言隨着數字音樂的普及，越來越多的用戶選擇在線音樂平臺來享受音樂。網易雲音樂作爲國內領先的音樂服務平臺，不僅提供了豐富的音樂資源，還擁有獨特的社交屬性，吸引了大量的用戶。在衆多的音樂服務中，音頻鏈接的抓取技術成爲了一個重要的需求。無論

2024-05-28 00:07:25

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

深度解析大模型推理框架：原理、應用與實踐

在當今數據驅動的時代，大模型推理框架已經成爲人工智能領域的重要支柱。本文將通過簡明扼要、清晰易懂的方式，帶領讀者深入瞭解大模型推理框架的原理、應用領域和實踐經驗，幫助讀者更好地掌握這一技術，並在實際工作中發揮其價值。一、大模型推理框架簡介

2024-04-11 23:28:49

華爲雲GeminiDB，廣告RTA的“登雲梯”

本文分享自華爲雲社區《華爲雲GeminiDB，廣告RTA的“登雲梯”》，作者： GeminiDB-Redis博客。行話說，廣告RTA要想效果好，數據庫挑戰少不了。那麼，廣告RTA對數據庫究竟有哪些挑戰？在上篇文章《究竟什麼樣的數據庫，才能

2024-04-09 10:32:19

大模型推理框架：從理論到實踐的全面解析

在數據驅動的時代，深度學習技術已經滲透到各個行業，從圖像識別到自然語言處理，從推薦系統到智能客服，其應用無處不在。然而，深度學習模型的訓練和推理過程往往涉及大量數據和複雜計算，傳統的計算框架難以滿足需求。因此，大模型推理框架應運而生，成爲解

2024-03-23 00:31:01

正式支持騰訊雲！Zilliz Cloud 多雲版圖再度擴張

3 月 22 日，Zilliz 對外透露，Zilliz Cloud 的用戶可以利用騰訊雲在北京和上海區的雲服務搭建雲應用，這將進一步爲海內外用戶提供更爲豐富的多雲支持的向量數據庫雲服務！這是繼阿里雲後，Zilliz Cloud 在國內新

2024-03-22 14:51:11

解鎖深度表格學習（Deep Tabular Learning）的關鍵：算術特徵交互

近日，阿里雲人工智能平臺PAI與浙江大學吳健、應豪超老師團隊合作論文《Arithmetic Feature Interaction is Necessary for Deep Tabular Learning》正式在國際人工智能頂會AAAI

2024-03-21 01:31:46

京東廣告算法架構體系建設--高性能計算方案最佳實踐

1、前言推薦領域算法模型的在線推理是一個對高併發、高實時有較強要求的場景。算法最初是基於Wide & Deep相對簡單的網絡結構進行建模，容易滿足高實時、高併發的推理性能要求。但隨着廣告模型效果優化進入深水區，基於Transformer

2024-03-15 13:45:05

多模態+大模型會帶來哪些“化學反應”？

導語：沒人懷疑，2024 年，AI 依然將是科技界的主角。上個月，OpenAI 推出了可以生成 60 秒高清視頻的視頻生成模型 Sora，掀起了對多模態模型的進一輪討論。多模態大模型技術的最新進展如何？這一波新技術，對於行業和消費者的體驗會

2024-03-15 13:45:01

大模型技術調研與端應用形態探索

在人工智能領域，大模型（Large Model）技術的崛起標誌着深度學習進入了一個全新的階段。這些模型通常包含數十億甚至千億級別的參數，通過大規模的數據訓練，能夠在語音識別、自然語言處理、圖像識別等多個領域取得令人矚目的成就。那麼，大模型究

2024-03-08 12:36:05

Z Potentials | 星爵，他的征途不止向量數據庫

縱觀過去幾十年的科技發展史，每一代新的技術架構的出現往往都伴隨着新的數據範式的出現，也催生了多家百億到千億美金數據平臺的誕生。如果說 2023 年科技領域的關鍵詞是 LLM，那麼數據庫領域的關鍵詞一定非向量數據庫莫屬。向量數據庫是一種專門用

2024-03-07 21:26:17

揭祕 LLMs 時代向量數據庫的 3 大實用場景

過去一年，ChatGPT 和其他大語言模型（LLMs）的爆火也帶動了向量數據庫的發展。許多用戶在搭建檢索增強生成（RAG）系統過程中選擇了使用向量數據庫 Zilliz Cloud ，但 Zilliz Cloud 的功能不止於此

2024-02-23 14:52:22

24小時熱門文章

最新文章

最新評論文章