多場景多任務學習在美團到店餐飲推薦的實踐

隨着推薦算法技術的不斷髮展，跨場景學習已經受到了越來越多的研究人員的關注。美團到餐算法團隊受到業界相關技術的啓發，不斷探索到店餐飲多場景推薦的優化問題，在多場景多任務學習的推薦領域中積累了較多的應用經驗。團隊使用到店餐飲全域推薦場景數據訓練統一的多場景多任務學習模型，減少了重複性開發，並在多個到店餐飲推薦場景進行落地，取得了較爲顯著的效果。

本文詳細闡述了美團到店餐飲業務中多場景多任務學習的解決方案，基於該方案形成的學術論文《HiNet: Novel Multi-Scenario & Multi-Task Learning with Hierarchical Information Extraction》已經被國際數據工程會議ICDE 2023收錄。

1. 背景

隨着網絡信息和服務的爆炸式增長，推薦系統已經成爲爲用戶提供高質量個性化決策建議和體驗的關鍵組件。傳統的推薦系統，模型服務通常需要爲特定場景單獨進行定製化的開發，以適配不同場景下數據分佈和特徵空間的差異。然而在美團等工業互聯網平臺中通常存在多種多樣的推薦場景（例如首頁信息流、垂類子頻道等）作用於用戶訪問的決策鏈路，同時基於每個場景的個性化推薦模型再對展示項目進行排序最終呈現給用戶。

在美團到店餐飲（以下簡稱到餐）平臺中，伴隨業務精細化的發展趨勢，越來越多的場景需要對推薦系統進行定製化的建設，以滿足用戶到店就餐的個性化需求。如下圖1所示，現實中用戶往往會在多個不同場景之間進行瀏覽、點擊，並最終成交。

但隨着推薦場景數量的增加，傳統地針對單個場景獨立開發推薦模型，往往會導致如下問題：

僅根據單場景自身的數據進行建模，無法利用到用戶在跨場景中豐富的行爲信息，忽視了場景共性信息，特別是考慮到多種場景中可能會存在重複展示的商品（在上圖1中，紅色矩形框圈中的其實是相同的商品）。
一些長尾的業務場景由於流量較小且用戶行爲較爲稀疏，數據量不足以讓模型有效地進行建模。
由於每個場景的特徵挖掘、模型訓練和上線部署是獨立開發且相互隔離的，這會大大增加計算成本和維護負擔。

總的來講，推薦算法對各場景單獨建模存在諸多的侷限性。然而，簡單地將多個場景數據集進行合併訓練一個排序模型來提供服務，並不能有效地捕獲到每個場景的特有信息。

此外，除了多場景推薦問題，每個場景中的用戶滿意度和參與度等通常都存在不同的衡量指標需要共同優化，例如點擊率（CTR）和點擊轉化率（CTCVR）。因此需要開發一個有效和統一的框架，來解決這種在多個場景中優化各種指標複雜性的問題（即多場景多任務優化問題）。

在最近的一些研究中，相關方法往往是將多場景推薦做爲一個多任務學習（Multi-Task Learning，MTL）問題進行建模，並且此類方法大多使用多門控混合專家（Multi-gate Mixture-of-Experts，MMoE）網絡框架作爲模型改進的基礎來學習場景之間的共性和特性。然而，這種基於MTL的方法往往將多個場景的數據信息投影到同一個特徵空間進行優化，這很難充分捕捉到具有多個任務的衆多場景之間的複雜關係，因此也無法進一步提升多場景多任務學習模型的性能。

從直覺來看，多場景和多任務的信息建模應屬於不同層次的優化，應該進行分層處理。因此，在本文中，我們提出了一種層次化信息抽取網絡（Hierarchical information extraction Network，HiNet）。具體來說，我們設計了一個端到端的兩層信息抽取框架，來共同建模場景間和任務間的信息共享和協作。

首先，在場景抽取層（Scenario Extraction Layer），HiNet能夠通過單獨的專家模塊提取場景共享信息和場景特有信息。爲了進一步加強對當前場景的表示學習，我們設計了場景感知注意力網絡（Scenario-aware Attentive Network，SAN），顯式學習其他場景對當前場景的信息表徵貢獻程度。

然後，在任務抽取層（Task Extraction Layer），利用自定義的由任務共享和任務特有專家網絡組成的門控網絡，有效地緩解了多任務學習中共享信息和任務特有信息之間的參數干擾。

通過在模型結構上分離場景層和任務層的信息提取，可以將不同場景下的多個任務明確劃分到不同的特徵空間中進行優化，從而有利於提升模型性能。

整個論文的主要創新點如下：

我們提出了一種新穎的多場景多任務學習模型HiNet，用於優化多場景下的多種任務指標，其中創新性地應用了分層信息抽取架構。
在場景信息抽取層中，我們提出了場景感知注意力網絡SAN模塊，進一步增強了場景信息建模的能力。
離線評估和在線A/B測試的實驗證明了HiNet優於當前主要方法。目前，HiNet已在美團到餐中的兩個場景中進行了全面部署。

2. 層次化信息抽取網絡

2.1 問題定義

原始的特徵輸入中主要包括了用戶畫像特徵、用戶行爲特徵、當前場景特有特徵和商品特徵，其中的數值特徵首先被轉化爲分類特徵，然後將所有分類特徵映射到低維向量空間來獲得$x$。考慮到美團到餐平臺中具體的優化目標，我們分別爲每個場景設置了CTR和CTCVR兩個任務。

2.2 方法介紹

本小節將展開介紹層次化信息抽取網絡模型HiNet。如下圖2-(A)所示，HiNet模型中主要包括場景抽取層和任務抽取層兩個核心模塊。其中在場景抽取層主要包括了場景共享專家（Scenario-shared expert）模塊、當前場景特有專家（Scenario-specific expert）模塊以及場景感知注意力網絡，通過這三部分的信息抽取，最終形成了場景層次的信息表徵；而在任務抽取層中，我們使用自定義門控網絡模塊CGC（Customized Gate Control）來對當前場景的多任務學習進行建模。下文將詳細介紹上述提到的HiNet模型的關鍵部分。

2.2.1 場景抽取層（Scenario Extraction Layer）

場景抽取層的作用是提取場景特有的信息表徵和場景間共享的有價值信息表徵，這是提高任務層次信息表徵能力的基礎。在場景抽取層，主要包括場景共享專家網絡、場景特有專家網絡和場景感知注意力網絡三部分，下文將依次進行介紹。

場景共享/特有專家網絡

考慮到用戶跨場景的穿插式行爲以及多個場景間商品重疊的現象，到餐業務中多個場景的數據之間存在着有價值的共享信息。因此在策略上，我們設計了場景共享專家網絡。這裏受到混合專家網絡架構MoE（Mixture of Expert）的影響，場景共享專家網絡是通過使用子專家集成模塊SEI（Sub-Expert Integration module，如圖2-(C)）生成的。

具體來說，場景共享專家網絡的最終輸出爲$G$，其公式爲：

場景感知注意力網絡

如上文所述，不同場景之間存在一定程度的相關性，因此來自其他場景的信息也可以對當前場景的信息表徵做出貢獻，從而增強當前場景的信息表達能力。考慮到不同場景間對彼此的表徵能力貢獻不同，我們設計了場景感知注意力網絡（Scenario-aware Attentive Network，SAN）來衡量其他場景信息對當前場景信息表徵貢獻的重要性。具體來說，SAN包含兩部分輸入：

2.2.2 任務抽取層（Task Extraction Layer）

爲了解決多任務學習中的負遷移問題，在任務抽取層，我們受到PLE（Progressive Layered Extraction）模型的啓發，採用了自定義門控網絡CGC模塊。

自定義門控網絡

自定義門控網絡主要由兩部分組成：任務共享專家網絡和任務特有專家網絡。前者主要負責學習當前場景中所有任務中的共享信息，後者用於提取當前場景中各個任務的特有信息。

2.3 訓練目標

我們提出的HiNet的最終損失函數是：

3. 實驗

3.1 實驗設置

數據收集：我們收集了美團到餐平臺中的六個場景（場景編號爲a到f）的用戶日誌數據作爲我們的多場景多任務訓練和評估數據集，其中場景a和b是大場景數據集。相比之下，c到f被作爲小場景數據集。

評估指標：我們分別考慮每個場景的CTR和CTCVR任務的性能評估，並採用AUC（Area Under ROC Curve）作爲多場景多任務數據集的評估指標。
模型對比：爲了公平地對比我們提出的HiNet模型與業界的SOTA（State-Of-The-Art）模型，我們使用相同條件的實驗環境和模型參數量，並對每個模型進行了充分調優和多次實驗。具體對比的模型如下：

多任務學習模型：

Shared Bottom：該模型是一個具有硬參數共享的神經網絡模型。
MMoE：該方法使用靈活的門控網絡調整專家網絡表示信息，並最終使用塔單元融合每個任務的所有專家網絡表示信息。
PLE：該模型基於MMoE，將專家網絡顯式劃分爲任務共享專家和任務特有專家，有效緩解了“蹺蹺板”現象帶來的負遷移問題。

多場景學習模型：

HMoE：該方法由MMoE改進而來，對多個場景的預測值進行建模，並針對當前場景優化任務預測結果。
STAR：該方法通過星型拓撲結構構造一個共享的和場景特有的網絡，用於學習當前場景的信息表徵。

需要指出的是，上述用於對比的模型最初只是爲了單純解決多任務學習或多場景學習的問題而提出的。爲了實現公平的實驗比較，我們在實驗中對相關對比模型做了自適應擴展，以滿足多場景多任務建模的需求。

3.2 性能比較

表2展示的是我們在美團到餐平臺中六個場景下的各個模型的性能對比。從結果可以看出，我們提出的HiNet模型在所有場景的CTR和CTCVR任務指標上都優於其他對比模型，這證明了HiNet在多場景多任務建模的優勢。

3.3 消融研究

爲了研究HiNet模型中每個關鍵組件的效果，我們設計了兩個HiNet模型的變體用於消融分析。具體如下：

HiNet（w/o hierarchy）：表示去掉了信息抽取的層級架構，直接採用CGC網絡進行多場景多任務學習建模。
HiNet（w/o SAN）：表示的是在場景抽取層中刪除SAN模塊後的HiNet模型。

從表3的實驗結果，我們可以觀察到，變體模型HiNet（w/o hierarchy）在所有指標上都有嚴重的性能下降，這表明分層信息抽取架構可以有效地捕獲跨場景的共性和差異，從而提高模型的性能。類似地，在場景抽取層去掉SAN模塊後，變體模型HiNet（w/o SAN）在多個場景下性能也有明顯的下降，這表明SAN模塊學習到的權重信息可以有效地增強場景抽取層的信息表徵能力。

3.4 在線A/B測試

爲了進一步驗證我們提出的HiNet模型的在線性能，我們在美團到餐平臺中的場景a和b中部署了HiNet模型，並與基線模型進行了爲期一個月的在線A/B測試。

從表4可以看出，HiNet模型在多個場景的CTR和CTCVR指標中均超過了基線模型，並且在訂單增益上有顯著的提升，這進一步說明了我們提出的HiNet模型的有效性。目前，HiNet模型已經全面部署在上述兩個業務中，併爲業務的增長做出了一定的貢獻。

4. 總結與展望

多場景多任務建模是目前推薦系統中最關鍵和最具挑戰性的問題之一。以往的模型主要通過將所有信息投影到同一個特徵空間來優化不同場景下的多個任務，這導致模型性能存在不足。

在本文中，我們提出了層次化信息抽取網絡HiNet模型，它利用分層優化架構對多場景多任務問題進行建模。在此基礎上，我們在場景抽取層設計了場景感知注意力網絡模塊SAN來增強場景的表示學習能力。離線和在線A/B測試實驗都驗證了HiNet模型的優越性。

值得一提的是，目前業界已經出現了大量的圖神經網絡在推薦模型上的應用。受此啓發，在未來的工作中，美團到餐算法團隊將圖神經網絡的信息傳遞能力結合到多場景多任務學習建模的方案中，繼續實踐我們的方法，並進一步設計更加完善的模型，來解決在美團到餐平臺中存在的複雜的多場景多任務建模問題。

作者簡介

周杰、先帥、文豪、薄琳、張琨等，均來自美團到店/平臺技術部。

參考文獻

[1] P. Li, R. Li, Q. Da, A.-X. Zeng, and L. Zhang, “Improving multi-scenario learning to rank in e-commerce by exploiting task relationships in the label space,” in Proceedings of the 29th ACM International Conference on * Information & Knowledge Management (CIKM), 2020, pp. 2605–2612.
[2] X.-R. Sheng, L. Zhao, G. Zhou, X. Ding, B. Dai, Q. Luo, S. Yang, J. Lv, C. Zhang, H. Deng et al., “One model to serve all: Star topology adaptive recommender for multi-domain ctr prediction,” in Proceedings of the 30th * ACM International Conference on Information & Knowledge Management (CIKM), 2021, pp. 4104–4113.
[3] J. Ma, Z. Zhao, X. Yi, J. Chen, L. Hong, and E. H. Chi, “Modeling task relationships in multi-task learning with multi-gate mixture-of-experts,” in Proceedings of the 24th ACM SIGKDD international conference on * knowledge discovery & data mining (SIGKDD), 2018, pp. 1930–1939.
[4] H. Tang, J. Liu, M. Zhao, and X. Gong, “Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations,” in Proceedings of the 14th ACM Conference on Recommender Systems (RecSys), 2020, pp. 269–278.
[5] L. Torrey and J. Shavlik, “Transfer learning,” in Handbook of research on machine learning applications and trends: algorithms, methods, and techniques. IGI global, 2010, pp. 242–264.
[6] S. J. Pan and Q. Yang, “A survey on transfer learning,” IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, pp. 1345–1359, 2010.
[7] F. Zhu, Y. Wang, C. Chen, J. Zhou, L. Li, and G. Liu, “Cross-domain recommendation: challenges, progress, and prospects,” in 30th International Joint Conference on Artificial Intelligence (IJCAI). International Joint * Conferences on Artificial Intelligence, 2021, pp. 4721–4728.
[8] Y. Zhang and Q. Yang, “A survey on multi-task learning,” IEEE Transactions on Knowledge and Data Engineering, 2021.
[9] S. Ruder, “An overview of multi-task learning in deep neural networks,” arXiv preprint arXiv:1706.05098, 2017.
[10] O. Sener and V. Koltun, “Multi-task learning as multi-objective optimization,” in Thirty-second Conference on Neural Information Processing Systems (NeurIPS), 2018.
[11] C. Rosenbaum, T. Klinger, and M. Riemer, “Routing networks: Adaptive selection of non-linear functions for multi-task learning,” in International Conference on Learning Representations (ICLR), 2018.
[12] J. Wang, S. C. Hoi, P. Zhao, and Z.-Y. Liu, “Online multi-task collaborative filtering for on-the-fly recommender systems,” in Proceedings of the 7th ACM conference on Recommender systems (RecSys), 2013, pp. 237–244.
[13] R. Caruana, “Multitask learning,” Machine learning, vol. 28, no. 1, pp. 41–75, 1997.
[14] K. Weiss, T. M. Khoshgoftaar, and D. Wang, “A survey of transfer learning,” Journal of Big data, vol. 3, no. 1, pp. 1–40, 2016.
[15] N. Shazeer, A. Mirhoseini, K. Maziarz, A. Davis, Q. Le, G. Hinton, and J. Dean, “Outrageously large neural networks: The sparsely-gated mixture-of-experts layer,” arXiv preprint arXiv:1701.06538, 2017.
[16] D. Eigen, M. Ranzato, and I. Sutskever, “Learning factored representations in a deep mixture of experts,” Computer Science, 2013.
[17] M. I. Jordan and R. A. Jacobs, “Hierarchical mixtures of experts and the em algorithm,” Neural computation, vol. 6, no. 2, pp. 181–214, 1994.
[18] R. A. Jacobs, M. I. Jordan, S. J. Nowlan, and G. E. Hinton, “Adaptive mixtures of local experts,” Neural computation, vol. 3, no. 1, pp. 79–87, 1991.
[19] S. E. Yuksel, J. N. Wilson, and P. D. Gader, “Twenty years of mixture of experts,” IEEE transactions on neural networks and learning systems, vol. 23, no. 8, pp. 1177–1193, 2012.
[20] Y. Zhang, C. Li, I. W. Tsang, H. Xu, L. Duan, H. Yin, W. Li, and J. Shao, “Diverse preference augmentation with multiple domains for cold-start recommendations,” in IEEE International Conference on Data Engineering (ICDE), 2022.

| 本文系美團技術團隊出品，著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容，敬請註明“內容轉載自美團技術團隊”。本文未經許可，不得進行商業性轉載或者使用。任何商用行爲，請發送郵件至[email protected]申請授權。

| 在美團公衆號菜單欄對話框回覆【2022年貨】、【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞，可查看美團技術團隊歷年技術文章合集。

多場景多任務學習在美團到店餐飲推薦的實踐

1. 背景

2. 層次化信息抽取網絡

2.1 問題定義

2.2 方法介紹

2.2.1 場景抽取層（Scenario Extraction Layer）

2.2.2 任務抽取層（Task Extraction Layer）

2.3 訓練目標

3. 實驗

3.1 實驗設置

3.2 性能比較

3.3 消融研究

3.4 在線A/B測試

4. 總結與展望

作者簡介

參考文獻

致遠OA及相關OA系統集成與二次開發

EXCEL公式使用總結

System.Object未被引用的程序集中定義

Java 信號量（semaphore）搭配CountDownLatch 實現多線程處理循環內邏輯並限制創建線程數

[轉帖]linux命令top內存顯示M兆或者G

【面試準備】項目經驗——接口自動化項目

edit with vim

windows 安裝 mysql8.0 服務免安裝版

ci 404 問題總結

探祕Python爬蟲技術：王者榮耀英雄圖片爬取

BizDevOps全局建設思路：橫向串聯，縱向深化

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結