百億大規模圖在廣告場景的應用

本文通過搜索推薦項目進行外賣搜索廣告弱供給填充，提高流量變現效率。我們提出外賣多場景異構大圖、異構大圖在線建模技術演進路線，解決外賣搜索推薦業務多渠道、即時化的挑戰。相關成果發表CIKM2023會議一篇。聯合機器學習平臺搭建大規模圖訓練、在線推理引擎GraphET，滿足近百億邊規模、複雜圖結構的多個業務落地。

1 引言

美團外賣在線服務正成爲日常生活中必不可少的服務，其中召回作爲外賣廣告系統的第一個環節，主要承擔着從海量商品中尋找優質候選的角色。相比於業界召回系統，外賣場景召回階段存在LBS限制，因此外賣搜索廣告[1]提出供給分層的自循環召回體系：無供給區域，實現流量運營聯動提升流量召回上限；高供給區域，通過關鍵詞、向量召回提升召回效率；弱供給區域，通過搜索推薦進行弱供給填充，提高候選效率。搜索推薦目標是解決用戶搜索意圖不明確、供給受限制的流量下，從滿足用戶需求的角度出發進行的用戶->供給匹配，提高弱供給流量變現效率、用戶搜索效率。

1.1 外賣廣告搜索推薦業務及挑戰介紹

用戶進入外賣場景，整體瀏覽路徑爲推薦頁、搜索頁，進入搜索頁之後整體瀏覽路徑爲搜索前導購渠道、搜索SUG渠道、主動搜索渠道、結果頁、詳情頁，搜索推薦主要目標是解決搜索意圖不明確、供給受限制的候選匹配問題，主要覆蓋搜索前導購渠道（搜索發現）、搜索SUG渠道、結果頁【POI+SPU】組合推薦、結果頁相關填充等場景。

搜索推薦覆蓋如上多個場景，具有場景多且場景輸入交互和展現形態異構的特點，第一個挑戰是如何統一建模異構多場景業務，提高弱供給匹配效率（多渠道）。外賣用戶需求變化多樣，從用戶行爲中可以發現，用戶有在不同場景之間比較，需求發生演化至逐漸收斂的特點，例如用戶從推薦轉搜索、搜索換Query、結果頁反覆對比、最終成單或者離開，第二個挑戰是如何實時、準確捕捉用戶需求的演變，完成用戶與供給的高效匹配（即時化）。

針對搜索推薦業務多渠道、即時化特點，業界語義向量召回、個性化向量召回一般解決方案和問題是：

針對輸入交互和展現形態差異較大的多種異構業務，不同業務樣本組織方式差異較大，由於向量召回以線性方式組織樣本，導致異構業務樣本難以統一，因此一般每個向量模型基於當前場景數據或者多場景數據進行單場景精細化建模，存在迭代效率低、小場景遷移能力弱的問題；
通過長短期序列建模，精細化刻畫在不同時段內用戶需求變化關係。時間段劃分的序列內，存在數據稀疏性高、興趣圈封閉、興趣演變刻畫粒度粗的問題。

搜索推薦業務的多個場景輸入交互和展現形態差異較大，難以應用傳統的具有相同目標、相似特徵的多場景個性化向量召回建模方法，圖結構作爲多維非規則立體結構，由多種異構類型節點和節點間關係組成，適合通過異構圖統一搜索推薦多異構場景。

圖技術具有異構節點關係關聯能力、高階關係聚合能力、稀疏節點高階表徵的特點，通過關係聚合、關聯能力緩解小場景難以學好、稀疏節點難以表徵好的問題，因此我們提出多場景異構大圖統一建模解決搜索推薦渠道多帶來的迭代效率低、異構場景難以統一、小場景難以學好的問題。用戶需求具有不同場景間相互比較，需求演變至逐漸收斂的特點，這種即時性的變化特點，我們以多場景異構大圖爲基座提出異構動態圖在線建模刻化需求演變關係，解決興趣演變刻畫粗、數據稀疏性高的問題。

1.2 圖技術和引擎介紹

最近幾年工業界和學術界在圖領域研究取得了不錯的進展，我們在這裏對圖深度學習的範式演進、主流研究方向、圖引擎發展進行梳理[2][3][4][5][6][7]。

圖神經網絡範式演進主要由基於圖遊走的無監督範式->基於聚合的消息傳遞範式->下一代範式，從淺層無監督深度學習到統一全場景圖深度學習發展。在主流的基於聚合的消息傳遞範式下，主要研究方向分爲消息傳遞函數設計、構圖設計、圖預訓練、聯合訓練、動態圖等主流方向。

圖神經網絡範式演進決定了未來走向圖多任務統一方向，我們期望在範式演進路線上找到搜索推薦業務如何統一建模多場景異構業務；消息聚合範式下動態圖、聯合訓練方向主要解決圖新增節點、新增變化關係如何刻畫，我們期望在動態圖方向找到建模用戶需求變化關係的方案。

相比傳統深度學習引擎，圖學習引擎需要具備圖構建、圖採樣和圖運算的能力。隨着圖技術發展越來越火熱，圖技術由學術界逐漸推廣到工業界，引擎發展由支持圖技術基本功能向更高效的支持大規模圖方向發展。當前已有很多針對不同場景的開源圖訓練引擎[8][9]。圖學習業務場景的圖模型規模越來越大，訓練時間也越來越長，因此訓練引擎[8][9]需要同時支持較大的圖規模端到端訓練和較快的訓練速度。

在當前開源的框架中，單機的訓練引擎可以發揮GPU的計算優勢，但是存儲有限，無法支撐業務TB級別內存和模型參數的大規模圖學習訓練任務。分佈式的訓練引擎可以通過橫向擴展來支持大規模的圖學習任務，但是優化多機圖採樣之間需要進行密集的通信造成瓶頸，使得各臺機器都無法發揮GPU的計算能力，導致訓練速度難以滿足工業界需求。因此我們聯合美團機器學習平臺建設了一套圖學習訓練引擎，能夠同時滿足速度和規模兩方面的需求。

2 異構大圖在搜索推薦業務的演進

我們提出多場景異構大圖統一建模解決搜索推薦渠道多帶來的迭代效率低、異構場景難以統一、小場景難以學好的問題。用戶需求具有不同場景間相互比較，需求演變至逐漸收斂的特點，這種即時性的變化特點，我們以多場景異構大圖爲基座提出異構動態圖在線建模刻化需求演變關係，如下闡述多場景異構大圖和異構動態圖在線建模的迭代演進。

2.1 外賣多場景異構大圖

從業務逐步擴增、基建逐漸完善、技術逐漸發展的現狀，我們多場景異構大圖由單場景精細化圖建模->多場景統一的大圖預訓練+下游任務微調->聯合GPT增強式檢索的大圖預訓練+下游任務Prompt微調進行迭代，最終構建外賣領域Graph模型。

隨着迭代的發展及數據規模的變化，圖引擎的技術能力需要由支持小規模圖快速迭代，到支持百億邊圖規模、全參數端到端訓練，最終實現支持千億邊規模領域大圖訓練能力的跨越。落地於搜索前導購渠道（搜索發現）、結果頁【POI+SPU】組合推薦、結果頁相關填充等多個場景，取得了較爲明顯的業務效果；在學術層面，相關論文已被CIKM 2023收錄。

2.1.1 單場景圖建模

基於EM（Expectation Maximization）框架的單意圖語言增強降噪圖

背景：將之前的圖神經網絡直接應用於該異構圖寬泛檢索任務會遇到噪聲交互。噪聲交互主要來源於用戶的隨機誤點（例如，在一個查詢中共同點擊“漢堡”和“沙拉”）以及全場景行爲序列之間Session（用戶在搜索引擎中從開始到結束的連續行爲）點擊（例如，“肯德基”和“海底撈”），以及由於消息傳遞方案更容易受到噪聲的影響。

動作：之前工作主要聚焦於結構相似性或者基於規則的語義相似性降噪，不同層面存在稀疏表示和節點覆蓋問題，因此我們提出基於變分EM框架進行LM和GNN聯合訓練，通過聯合訓練融合結構和語義信息進行圖結構降噪。具體而言，在單意圖去噪中，我們基於LMs（（Language Models）估計每次圖交互的可靠性程度，並基於可靠度爲GNNs(Graph Neural Networks)設計了硬去噪和軟去噪策略，如下公式所述，此外用變分EM框架將語言模型和圖神經網絡結合起來，以避免聯合訓練需要不可承受的計算成本，最終通過聯合訓練融合結構和語義信息進行降噪。

結果：EM聯合訓練和軟硬降燥（對比只有硬降燥圖）帶來離線Recall +3.7%。

基於對比學習的多意圖差異化建模

背景：將之前的圖神經網絡直接應用於該異構圖寬泛檢索任務會遇到意圖不可區分性的問題。用戶搜索詞表達了多種多樣的意圖，對於同一個曝光卡片，具有不同意圖的用戶可能會關注不同部分（菜品、商家等），但是現有的圖神經網絡通常忽略意圖之間的差異統一建模。

動作：我們提出多意圖差異化建模，通過多意圖對比學習方式解決之前忽視意圖之間差異性問題。具體的我們在語言模型（LMs）中引入了意圖感知節點，能夠爲同一個節點獲得不同意圖表示。GNNs中通過設計聚合函數讓每個意圖節點更多地關注來自具有相同意圖的邊的鄰居節點（公式如下）。最後提出了一個多意圖對比學習目標（公式如下），以明確而有效地指導圖模型顯示建模不同意圖的差異性。詳細信息可以去閱讀我們的論文LEAD-ID[10]。

結果：多意圖對比學習帶來離線Recall + 1.8%，多意圖表徵帶來離線多業務平均Recall + 3.8%。

2.1.2 WM多場景大圖預訓練

WM大圖構建

我們以外賣全場景作爲數據源進行異構類型構圖，實現一個大圖支持多場景多業務。如下圖所示，我們以用戶畫像、用戶全行爲序列、搜索點擊序列Session內序列等爲數據源進行大圖構圖；商品作爲多場景共性連接節點，自定義業Meta-path作爲單場景子圖構建方法，構建具有實際任務意義的搜索商品子圖、搜索商戶子圖、用戶商品子圖等。

其中圖節點包User、Item、POI、搜索詞；邊包括User點擊、成Item，搜索詞點擊、成單、加購item、POI，用戶序列Item、POI的Session內點擊、成單等；大圖整體規模億節點、百億邊。

多場景統一大圖預訓練

背景：爲了實現一個大圖支持多場景多業務，提高迭代效率，我們在語義聯合增強圖降噪網絡基礎上進行統一多場景大圖預訓練。相比於上述單場景語言增強降噪圖，大圖預訓練主要挑戰爲如何進行多場景的語言模型和圖模型預訓練。

動作：語言模型採用BERT爲Base，採用底層多場Share-bottom共享，頂層異構節點差異化建模統一搜索推薦多個場景，獲得多種類型節點表徵。統一大圖預訓練階段無差異性高階聚合所有鄰居節點必然帶來噪聲干擾，因此我們通過自定義場景Meta-path顯示定義場景子圖，多場景子圖內進行高階聚合、多場景子圖間底層共享節點表徵。模型以無監督鏈接預測任務作爲目標，通過LMs和GNNs聯合訓練進行統一大圖預訓練任務。

結果：優化多任務樣本混合比例離線多任務平均Recall + 4%。

2.1.3 生成式模型增強的大圖預訓練、Prompt微調

背景：上述統一多場景大圖預訓練+Finetune範式主要有幾個問題，首先預訓練任務和下游任務之間固有的訓練目標有差距，導致預訓練無法最大化發揮能力，其次此範式下每個任務都需要大量樣本有監督訓練，微調成本高且新任務泛化能力弱，在Prompt範式之前，多場景訓練方法集中在模型框架結構優化，設計複雜且可遷移性弱，因此借鑑GPT新範式設計圖領域統一多場景模型。

動作：生成式模型實現語義理解模型具有統一多場景任務設計簡單、可遷移性強等優點，因此通過生成增強檢索（GAR）方式進行搜索推薦多場景語義模型設計，然後通過GAR生成式檢索模型和GNN聯合訓練進行統一大圖預訓練任務。具體而言，GAR通過底層共享基於開源模型領域微調後的模型爲基座、以對比學習爲目標設計雙塔結構、多場景多樣Prompt設計樣本結構，以SFT方式進行多場景任務訓練實現搜索推薦多場景語義模型；如上所述，大圖預訓練階段通過自定義場Meta-path顯示定義場景子圖，多場景子圖內進行高階聚合、多場景子圖間底層共享節點表徵，模型以無監督鏈接預測任務作爲目標，最後GAR和GNN聯合訓練實現統一大圖預訓練任務。下游設計多場景Soft-prompt進行SFT，具體Soft-prompt 初始化向量進行表示，通過融合預訓練節點表徵Soft-prompt表徵作爲最終節點表徵，多場景以訓練少量參數、小樣本進行下游任務微調。

結果：相比於多任務BERT，GAR帶來所有任務離線指標上漲，多任務平均Recall +1%；zero-shot評估下游任務，soft prompt 微調（對比不進行下游任務微調），下游多任務平均Recall +10%。

2.2 異構大圖在線建模

由於用戶需求變化關係有即時性、場景間相互比較逐漸收斂的特點，因此我們基於多場景異構大圖建設圖在線引擎，通過圖在線建模完成用戶與供給的高效匹配，提高流量使用和用戶搜索效率，業務收益取得了較爲明顯的效果。

用戶需求變化的動態圖建模

背景：考慮用戶需Session之間興趣獨立、Session內部用戶在不同場景間相互比較，需求演化至逐漸收斂的特點，提出基於動態圖的用戶Sessionlevel建模刻化用戶需求的變化關係。

動作：Sessionlevel建模加劇了序列的稀疏性、加大了表徵難的問題，我們利用圖的高階聚合能力，沿用之前“軟硬降噪”聚合函數，通過高階聚合操作豐富序列中所有節點的表徵能力。Sessionlevel分爲Session內部建模和Session間建模，Session內部場景拆分爲推薦、搜索中、搜索後，通過基於場景的時序Self-attention建模需求演化關係，Session間基於當前實時搜索意圖、用戶信息雙重注意力動態聚合，整體建模用戶需求。用戶搜索場景下搜索詞表達用戶即時意圖，因此我們在上述語言增強降噪預訓練圖的基礎上，基於搜索詞和候選商品關係、商品共現關係構建搜索商品子圖，爲用戶召回精確候選；最終搜索子圖表徵和動態圖表徵進行融合，整體結構如下圖所示：

結果：用戶Sessionlevel建模離線Recall + 1%。

3 大規模圖引擎GraphET工程建設

3.1 大規模圖引擎訓練框架建設

圖學習業務場景的圖模型規模越來越大，業務已經迭代到了幾億節點百億邊的規模，以10億節點、100億條邊的圖模型爲例，圖結構本身採用COO格式保存在內存中，要佔約100GB的內存（10GB*4*2 + 1GB*8）。在採樣過程中隨機遊走會用CSR、CSC兩種格式保存中間結果，以及訓練過程中的內存佔用，內存佔用已經有了300GB。

每個節點中還有用戶定義的特徵，以一個256維的節點特徵爲例，10億個節點總共需要256* 4*1GB = 1TB。節點通常不會只有一類特徵，邊上也會有各種維度的邊特徵，這樣的圖規模常見集羣中的1TB內存的無法保存。爲了保證業務效果，節點和邊的Sparse、Dense特徵需要和模型參數進行端到端全量更新，TB級別參數GPU訓練更新開源圖學習框架不支持。

因此我們在開源的圖學習訓練框架DGL（Deep Graph Library）v0.7基礎上，研發了一套大規模圖神經網絡的訓練框架GraphET，服務於公司多個業務線。該框架支持億級別節點、百億級別邊離線圖訓練流程高效pipline（圖構建/採樣/聚合/端到端建模）Pytorch Dgl Serving 在線向量計算，方便實現學術界任意複雜圖模型工程在線化。

GraphET訓練系統的架構如下圖所示：

系統由負責模型訓練的Worker進程和負責Hashtable保存的Parameter Server進程兩部分構成。爲了降低內存開銷，將DGL圖結構存到共享內存中，在多個Worker進程間共享同一份圖結構。圖中的節點和邊上的特徵保存在Parameter Server中，每次採樣後會向Parameter Server發送需要查詢的節點，將查詢到的Embedding放入SHM。Mini-batch訓練前將Embedding加載到GPU上，訓練過程中用alltoall通信來獲取節點/邊特徵，訓練結束後將Embedding寫回PS完成更新。系統支持顯存/內存/SSD多級存儲，根據特徵的訪問頻次來將特徵放置在合適的位置，在不影響系統吞吐的情況下，提高了DGL可以支撐的圖的特徵規模。

worker進程

在我們設計的架構下，模型訓練過程中涉及Super-batch粒度的訓練樣本採樣、樣本特徵查詢、Mini-batch粒度的GPU訓練和特徵更新，不同階段對硬件特點的需求是不同的，具體來說對爲了充分發揮不同硬件的功能，最大化利用GPU的計算優勢，提升模型整體訓練速度，我們通過三級流水線來加速模型訓練。

訓練樣本採樣是CPU密集型任務；
樣本特徵查詢是SSD IO密集型任務；
GPU訓練是計算密集型任務。

在流水線中，每個Super-Batch都包括採樣、獲取特徵、訓練三個階段。樣本採樣階段是獨立的，採樣結果放入Queue中；獲取特徵階段由PS Client向PS發送異步請求拉取特徵參數放入SHM；訓練階段階段將特徵放到GPU上，訓練後將新的Embedding寫回SHM。多級流水線之間通過消息隊列和共享內存通信。

worker進程對重複查詢Embedding做了兩方面優化：

採樣後，在查詢特徵前會對多GPU採樣出的Key進行去重。由於Worker進程一個Super-batch採樣多個Mini-batch，鄰居較多的節點可能會被重複採樣，去重後每個key在PS端僅查詢一次；
每個Mini-batch訓練時，所有Key按照Key%Worker_num=i的方式存儲在Worker i對應的顯存中，GPU進程間alltoall通信前會對key去重以減少卡間通信。

PS進程

PS主要負責PS負責存儲、查找和更新Embedding參數，支持兩種存儲方式：Full_memory和Ssd_kv_store。在Full_memory模式中所有的參數都是存在內存中，這相當於將參數存儲在SHM中。在Ssd_kv_store模式中，所有的參數都存在SSD中，內存作爲SSD的Cache僅存儲部分參數，這種方式可以存儲更多的參數，但需要考慮Cache命中率，避免內存中存儲的參數太少，導致SSD讀寫速度成爲性能瓶頸。

PS以KV形式存儲Embedding參數，使得Embedding參數在PS和Worker進程中的PS Client之間共享。爲了優化內存使用效率，將所有Hashtable的KV對統一存儲在一塊大的共享內存中，內存中的Hashtable中存儲指向共享內存中對應Value的指針（Offset）。

我們在SSD引擎方面做了多方面的優化：

SSD聚合讀優化。SSD上的Key查詢是以Group爲單位進行數據讀取，而查詢Key的分佈很隨機，導致讀到PageCache的Group數據被頻繁換入換出，影響查詢性能。因此，我們將待查詢的Key集合按照Group進行提前聚合，聚合後再進行SSD查詢，一方面降低I/O讀取次數，另一方面也能更好利用PageCache來提升查詢性能。
對象池優化。在Key查詢過程中，需要頻繁創建小對象（Cache結點、Block結點等），雖然底層已使用TCMalloc優化，但內存分配釋放的開銷仍不容小視。因此，我們引入定長對象池，在連續大內存上維護小對象的分配和釋放操作，減少系統調用，提升服務性能。
文件GC優化。由於Compaction操作，SSD文件可能包含很多無效Group數據，但只有文件中Group全部爲無效狀態時纔會觸發文件刪除，導致有效Group佔比很低的文件遲遲得不到刪除，佔用磁盤空間，對SSD讀寫性能也產生影響。因此，我們引入異步GC線程，定期合併有效Group佔比低的文件，刪除無效文件，降低磁盤佔用。

3.2 圖引擎在線框架建設

隨着圖訓練引擎支持大規模圖落地，圖節點和邊變化關係更新、實時新增圖節點、實時預測圖表徵能力成爲制約業務效果的瓶頸。因此基於圖模型離線訓練流程，建設圖在線引擎。圖在線引擎建設包括兩部分內容：圖採樣和圖推理，如下圖所示：

圖採樣：將圖模型訓練過程中用到的多跳圖節點，進行整合拼裝後寫入KV Serving，提供高效圖採樣（後續會遷移至圖數據庫，實現實時採樣）；
圖推理：將圖採樣節點以及其它特徵輸入到圖模型中，進行在線前向推理，輸出向量Embedding用於後續的向量檢索召回。下面也將重點介紹我們在圖推理方面的相關建設工作。

圖推理遇到的挑戰

Python在線推理：圖模型基於開源DGL框架進行訓練和導出。雖然DGL框架支持Pytorch和Tensorflow兩種backend，但Pytorch相比Tensorflow，無論是新功能特性的迭代效率方面，還是公司訓練平臺的支持方面都更加突出，因此在線推理部署的圖模型是基於DGL+Pytorch的模式進行訓練和導出。

Pytorch本身是支持將模型序列化成TorchScript格式，進行C++部署和推理加速，但DGL框架是基於Pytorch進行二次開發，無法序列化成TorchScript格式進行C++部署，只能通過Python部署的方式進行推理，這就需要在現有C++推理框架的基礎上進行底層能力升級，支持Python部署模式的backend，這對框架的WorkFlow推理流程、模型管理模式、進程部署方式等方面都是不小的挑戰。

單機顯存瓶頸：Python由於全局解釋器鎖GIL的限制，導致單進程模式無法並行處理請求，一方面導致多核CPU/GPU無法被充分利用，資源被浪費，另一方面請求被串行積壓，導致耗時上漲，這對於在線推理服務是不能接受的。

因此，爲了避免GIL鎖的影響，需要通過部署多進程的方式進行模型推理，支持在線請求的併發處理。但多進程部署方式，需要每個進程都加載一份模型數據，這無疑會受到單機顯存的約束，模型越大，單機可部署的進程數就越少，進而限制處理請求的併發度，影響在線推理性能。因此，如何降低單進程可加載的模型數據量，提高並行部署的進程數量，是我們需要思考的問題和挑戰。

圖推理框架建設

針對上面梳理的問題和挑戰，並結合業務現狀和系統現狀，我們進行了在線圖推理框架的建設，系統架構如下圖所示：

從上圖可以看出，在線圖推理框架由1個主進程+ N個子進程組成，主進程負責WorkFlow工作流的調度，包括在線請求接收、解析、特徵/圖節點Embedding數據準備以及與子進程間的數據交互，最終返回向量Embedding結果；子進程負責以Python的方式進行模型的加載和推理，並將推理結果返回給主進程。主進程每次會從子進程池中選取空閒子進程，並通過管道進行通信。

多進程架構：解決Python GIL鎖造成的單進程CPU/GPU利用率低的問題

將Python執行邏輯部署在多個進程中，通過單進程內串行執行請求，可有效避免Python GIL鎖帶來的限制，通過進程間並行處理請求，可充分利用CPU/GPU多核資源，提升服務性能和吞吐。主進程和子進程池之間，交互流程類似於“生產者-消費者”模式，通過引入管道、epoll等機制，保證進程間通信高效執行。

模型拆分：解決模型過大造成的單機顯存對子進程數量限制的問題

圖模型包括億級節點和幾十億條邊，模型大小在幾十G左右，默認全部加載到GPU中。考慮到模型加載後會出現膨脹現象，實際佔用的GPU顯存會更大，而GPU顯存資源有限，加載單個模型都會存在顯存溢出風險，很難支撐多進程加載多模型的模式。

經過分析，我們發現模型結構中存儲了大量圖節點Embedding數據，而圖模型網絡Dense參數只佔百兆左右，同時發現單機內存大小要遠大於GPU顯存，且處於空閒狀態。因此，我們在離線側將圖模型進行了拆分，將圖節點Embedding部分加載到主進程內存中，且只需加載一次，而將模型Dense參數加載到GPU顯存中，雖然每個子進程都需加載一份，但Dense參數體量較小，單個進程佔用顯存可控，可大幅提升子進程部署數量。

統一通信協議：解決不同策略模型的低成本快速迭代問題

不同策略模型對特徵/採樣Embedding的處理方式都有所不同，如果放在框架層進行適配，時間成本和人力成本都很高，影響模型的快速迭代。因此，我們制定了主進程->子進程->Python邏輯全流程的統一通信協議，通過標準化、規範化的通信數據格式，將特徵/採樣Embedding數據逐層傳輸到子進程Python邏輯中，而子進程Python邏輯中才會真正執行模型定製化邏輯，算法同學可以按需修改，並作爲模型的一部分被子進程加載，從而保證在服務框架層面穩定不變的情況下，動態支持不同策略模型的快速迭代。

4 總結和展望

圖神經網絡作爲圖結構數據建模方法，在搜推廣領域展現出巨大潛力，業界頭部公司均結合各自業務特點自建圖引擎和圖技術落地應用。

本文主要介紹大規模圖框架在外賣廣告場景的落地。基於對外賣搜索廣告場景分析，提出搜索推薦業務解決LBS場景下弱供給問題。搜索推薦業務面臨着多渠道、即時化的挑戰。我們提出多場景異構大圖，通過單場景精細化建模->大圖預訓練+下游任務微調->大圖預訓練+下游任務Graph Soft Prompt解決多渠道問題，異構圖在線建模通過基於Sessionlevel的動態圖建模用戶需求變化關係。

爲了滿足億節點百億邊大規模圖端到端訓練、在線實時推理，基於開源DGL框架研發了一套大規模圖神經網絡的訓練、推理框架GraphET，支持離線圖訓練流程Pipline（圖構建/採樣/聚合/端到端建模）， DGL Serving在線推理，方便實現學術界任意複雜圖模型工程在線化。

未來我們還將在以下方向繼續進行探索：

借鑑GPT思想，搜推廣領域通用Graph模型建設及落地；
構建領域大圖，引擎需要支撐千億邊、複雜類型構圖能力；
圖在線引擎加速及支撐更大規模圖在線推理框架建設。

5 參考資料

[1] Daniel C Fain and Jan O Pedersen. 2006. Sponsored search: A brief history.Bulletin-American Society For Information Science And Technology 32, 2 (2006).
[2] Grover A, Leskovec J. node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016: 855-864.
[3] Procopio L, Tripodi R, Navigli R. SGL: Speaking the graph languages of semantic parsing via multilingual translation[C]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021: 325-337.
[4] Lu Y, Jiang X, Fang Y, et al. Learning to pre-train graph neural networks[C]//Proceedings of the AAAI conference on artificial intelligence. 2021, 35(5): 4276-4284.
[5] Velickovic P, Cucurull G, Casanova A, et al. Graph attention networks[J]. stat, 2017, 1050(20): 10-48550.
[6] Han H, Zhang M, Hou M, et al. STGCN: a spatial-temporal aware graph learning method for POI recommendation[C]//2020 IEEE International Conference on Data Mining (ICDM). IEEE, 2020: 1052-1057.
[7] Sun X, Cheng H, Li J, et al. All in One: Multi-Task Prompting for Graph Neural Networks[J]. 2023.
[8] Wang M Y. Deep graph library: Towards efficient and scalable deep learning on graphs[C]//ICLR workshop on representation learning on graphs and manifolds. 2019.
[9] Lin Z, Li C, Miao Y, et al. Pagraph: Scaling gnn training on large graphs via computation-aware caching[C]//Proceedings of the 11th ACM Symposium on Cloud Computing. 2020: 401-415.
[10] Zhou X, Wang R, Li H, et al. LEAD-ID: Language-Enhanced Denoising and Intent Distinguishing Graph Neural Network for Sponsored Search Broad Retrievals[C]//Proceedings of the 32nd ACM International Conference on Information and Knowledge Management. 2023: 4460-4464.
[11] Sun X, Cheng H, Li J, et al. All in One: Multi-Task Prompting for Graph Neural Networks[J]. 2023.

| 在美團公衆號菜單欄對話框回覆【2023年貨】、【2022年貨】、【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞，可查看美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品，著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容，敬請註明“內容轉載自美團技術團隊”。本文未經許可，不得進行商業性轉載或者使用。任何商用行爲，請發送郵件至[email protected]申請授權。

百億大規模圖在廣告場景的應用

1 引言

1.1 外賣廣告搜索推薦業務及挑戰介紹

1.2 圖技術和引擎介紹

2 異構大圖在搜索推薦業務的演進

2.1 外賣多場景異構大圖

2.1.1 單場景圖建模

2.1.2 WM多場景大圖預訓練

2.1.3 生成式模型增強的大圖預訓練、Prompt微調

2.2 異構大圖在線建模

3 大規模圖引擎GraphET工程建設

3.1 大規模圖引擎訓練框架建設

3.2 圖引擎在線框架建設

4 總結和展望

5 參考資料

MySQL查出時間比實際晚8小時的解決方案

什麼是IPD項目管理模式？聊聊IPD下的產品研發流程

aaaaaa1

Java編程工具：簡潔高效實現

Java word通過html設置樣式（Spire Docx）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結