基於多模態信息抽取的菜品知識圖譜構建

菜品作爲到店餐飲各相關業務的基石,提供了更細粒度的視角理解餐飲供給,爲到餐精細化運營提供了抓手。美團到店研發平臺/數據智能平臺部與天津大學劉安安教授團隊展開了“基於多模態信息抽取的菜品知識圖譜構建”的科研合作,利用多模態檢索實現圖文食材的識別,擴展了多模態菜品食材識別的範圍,提升了食材識別的準確性。

1. 背景

中國有句古話:“民以食爲天”。對食物的分析和理解,特別是識別菜餚的食材,在健康管理、卡路里計算、烹飪藝術、食物搜索等領域具有重要意義。但是,算法技術儘管在目標檢測 [1]-[3] 、通用場景理解 [4][5] 和跨模態檢索 [6]-[8] 方面取得了很大進展,卻沒有在食物相關的場景中取得好的表現,尤其是對烹飪菜餚的相關場景。其核心原因是缺乏細粒度食材的基準,這已經成爲該領域發展的瓶頸。

以往的研究主要集中在食物層面的表徵學習,如Food2K上的食物識別 [9]-[12] ,UNIMIB2016上的食物檢測 [13]-[15] 。然而,這些方法忽視了菜餚中的食材組成,也不理解食材之間的上下文關係。相比之下,一系列的方法 [16]-[18] 運用Recipe1M的“食譜-圖像”對,實現了跨模態的食譜檢索 [16] 。

然而,由於缺乏食材邊界框的標註,這種類型的研究只能通過三元組建模出整個食物圖像和食譜文本之間的關聯 [16],[19],[20] 。這種限制導致圖像區域與食物的一系列食材之間存在模糊的匹配關係,產生虛假相關性 [21] 。綜上,目前迫切需要一個細粒度的食材級基準,促進複雜的食品場景理解算法的發展,並支持細粒度的任務,如食材檢測和跨模態食材檢索。

在本研究中提出對於中餐進行理解這一新任務,旨在捕捉中餐圖像中食材之間的語義關係,並建立了有關中國菜品理解的新基準。我們大致設定了中餐理解的兩個任務:食材檢測和食材檢索。對於食材檢測,目標是確定圖像中特定食材的存在並提供精確的定位。對於食材檢索,目標是探索不同食材組合與食品圖像之間的細粒度對應關係。對中餐的理解擴展了食品相關任務的範圍,在食品領域開闢了更廣泛的應用。同時,食材的多樣外觀和它們錯綜複雜的語境關係,對中餐的理解提出了一個更大的難題。

爲了進行中餐理解這一新任務,我們需要構建一個包含食材粒度標註的數據集。然而,由於中餐種類繁多、風格獨特,因此在食材標註上面臨着巨大的挑戰。構建含中餐食材的細粒度跨模態數據集主要有三個難點。

  • 首先,相同的食材有不同的名稱。圖1.1(a)說明了這種情況:“聖女果”和“小番茄”都是廣泛使用的食材名稱,它們是同一食材的不同名稱,這樣的情況使得我們需要花費更多的精力來清除數據集中的模糊標籤以及其他噪聲。
  • 其次,同一植物類食材之間的圖像存在細微差異,如“青菜”和“油菜”,“香菇”和“冬菇”,如圖1.1(b)所示。這些情況對標註人員來說是相當具有挑戰性的,他們需要從文本部分獲得一些提示。此外,對於下游任務來說,基於視覺特徵來區分它們也是相當具有挑戰性的。
  • 第三,由於烹飪方法的原因,中國菜餚的食材通常分散在圖像中。如圖1.1(c)所示,碎片化食材通常缺乏清晰的輪廓邊界。此外,從圖1.1(d)中可以看出,食品圖像中的主要食材往往佔據顯著區域,這不可避免地削弱了輔助食材的語義信息。這使得在提取食材特徵的同時,對輔助食材之間的上下文關係進行建模成爲一個關鍵問題。

爲了應對上述挑戰並促進對中餐理解的研究,我們開發了一個名爲CMIngre (Cross-Modal Ingredient-level Dataset) 的跨模態食材級數據集。該數據集旨在通過提供對食材及其關係的有價值的見解來增強對中國烹飪的理解。該數據集由來自三個不同來源的8,001張圖像組成,即菜餚,食譜和用戶生成內容(UGC)。該數據集包含429種不同的中國食材和95,290種食材邊界框。

爲了對廣泛的食材進行全面的語義分類,我們根據中華人民共和國健康行業標準對食品食材數據表達的規定 [23] ,將其劃分爲更高級的層次。這些層次關係也可以作爲先驗信息,以促進在後續研究中探索不同食材之間的上下文關係。此外,我們評估了傳統的基於CNN的檢測算法和基於Transformer的預訓練模型在CMIngre上食材檢測任務的性能。我們還提出了食材檢索任務的基線方法,該方法捕獲單個食材的語義信息以及各種食材組合之間的關係,並進一步採用pooling策略來研究跨模態圖像-食材之間的匹配關係。在CMIngre數據集上進行的深入實驗評估證實了我們提出的方法在提高食材檢測和檢索性能方面的有效性。

本文的貢獻可以概括爲以下幾點:

  • 本文提出了一種新的基於“圖像-文本”對的中餐理解任務,該任務擴展了細粒度對象檢測和檢索的範圍,對中餐烹飪領域的理解提供進一步的幫助。
  • 爲了支持對中餐理解的研究,我們建立了一個名爲CMIngre的跨模態食材級別的數據集,該數據集由來自三個不同來源的8,001組圖像食材組成,涵蓋了429種不同的中國食材和95,290個邊界框。
  • 我們評估了不同的目標檢測算法在CMIngre數據集上的性能,並提出了跨模態食材檢索任務的基線方法。
  • 我們在CMIngre上對兩個食材級的食品理解任務進行了廣泛的實驗,以評估我們提出的方法的有效性。

圖1.1 菜品中不同尺寸的食材

2. 數據集

在本節中,我們將討論如何構造CMIngre數據集。我們將在第一部分中介紹我們如何收集和標註數據。在第二部分中,我們對數據進行了後處理,提升原始數據的質量。在第三部分中進行了CMIngre數據集的統計和分析。

2.1 數據收集和標註

數據收集:爲了收集全面的食物圖像,我們探索了三種類型的圖像-文本對:

  • 菜餚圖片:如圖2.1第二行所示,這一類別包括與其名稱配對的菜餚圖像。與其他類型相比,這種類型的文本提供了最簡潔的描述。
  • 菜譜圖片:如圖2.1第三行所示,這些數據由菜譜圖像和詳細的食譜文本組成。這些圖像的質量更高,並且比其他兩個類別的圖像描述的信息更豐富。
  • 用戶UGC圖片:如圖2.1的最後一行所示,這種類型數據主要包含用戶拍攝的圖像及其附帶的評論。由於用戶生成的內容缺乏約束限制,圖像和文本描述經常包含與食物無關的元素,例如餐廳氛圍或餐具。爲了將該數據集細化爲專注於食物,我們使用菜餚名稱識別算法 [45] 來識別帶有菜餚名稱的文本。具體來說,我們會選擇評論中包含三個以上菜名的照片,減少與食物無關的內容。

這三種類型的數據在線上平臺很流行,並且提供了食品相關數據的多樣化表示。我們總共收集了11,300個圖像-文本對用於標註。

圖2.1 不同數據來源的圖像-文本對,其中UGC表示用戶生成的內容

數據標註:這裏將詳細介紹收集到的“圖像-文本”對的標註過程。我們首先僱傭了8名母語爲中文的工作人員,分別對文字描述和圖片進行標註。然後,使用另外兩名工作人員進行雙重檢查過程。

  1. 文字描述標註:標註人員的任務是識別文本描述中提到的所有食材。該標註的結果如圖2.1第三列所示。
  2. 圖片標註:如圖2.1最後一列所示,圖像標註遵循兩個關鍵原則:1)要求標註人員標註文本中提到的和圖像中可見的食材。2)文本中沒有提及但在圖像中可以識別的食材也需要標註。在這個過程中,標註人員遇到了幾個挑戰:1)一個圖像包含相同食材的多個實例。在這種情況下,標註人員需要用多個邊界框標註所有實例。但是,如果同一食材的多個實例緊密聚集在一起,則可以將它們分組在一個邊界框中。2)多種食材被其他食材覆蓋。在這種情況下,標註人員需要標註出所有可識別的部分。本質上,食材中任何可以被辨別和識別的部分都應該被標註。

經過標註過程後,最終的數據集包含11,300個圖像-文本對,用4,492個不同的食材標籤和199,853個邊界框進行了標註。

2.2 標註數據後處理

由於缺乏對標註人員關於每個圖像的邊界框的大小和數量的限制,最終的標註結果中存在邊界框大小的顯著變化和相當多的冗餘邊界框。爲了解決這個問題,我們分別對圖像和文本進行了進一步的後處理。

  • 圖像標註清洗:爲了提高數據集中邊界框的質量,我們基於兩個關鍵策略實現了清理過程:1)邊界框融合:我們通過將相同標籤(重疊,相互包含或臨近)合併到單個邊界框中來解決冗餘邊界框的問題。具體來說,融合是基於邊界框的面積,計算每個邊界框內的像素數。如果融合前後的面積比大於一個特定的閾值,我們將這些邊界框整合成一個新的邊界框。這個閾值的設置是一個關鍵問題。我們注意到,過高的閾值將使融合策略無效,而過低的閾值將導致可能包含多種食材的過大的邊界框。因此,我們根據經驗將其設置爲0.6作爲平衡。2)較小邊界框移除:我們通過兩個過程來移除數據集中的小邊界框。首先,爲了去除只有小框的圖像,我們去除所有框的總面積小於整個圖像面積3%的圖像-文本對。其次,如果圖像中有超過三個相同類別的邊界框,我們只保留面積至少爲該類別中最大邊界框面積0.8倍的邊界框。在這些清理步驟之後,我們的精細化數據集包含8,001個圖像-文本對,共有95,290個邊界框。
  • 文本標註清洗:爲了改進數據集中的食材標註,我們實現了兩個步驟:1)爲了保留足夠的數據用於訓練和測試,我們刪除出現在少於五張圖像中的食材。由於原始數據集中存在顯著的長尾問題,這一步使得食材標籤總數減少到510。2)在這510種食材中,我們發現了不同名稱指代同一種食材的情況,例如“松花蛋-皮蛋”。爲了解決這個問題,我們利用中華人民共和國健康行業標準[23]中的食物成分數據表達規範,對目前510種食材進行比較和組合。具體而言,兩個標註人員最初將510個食材中的每一個分類到分層本體的適當葉節點中。隨後,另一個標註人員在同一父節點下審查併合並具有相同語義的食材。合併操作進一步將食材標籤減少到429個。

綜上所述,清理後的數據集包括8,001張圖像,95,290個邊界框和429個食材標籤。

2.3 數據統計和分析

在CMIngre中,有1,719對來自菜餚的圖像-文本,2,330對來自食譜,3,952對來自UGC。如2.1所述,UGC的圖像質量比菜餚和食譜的圖像質量差,這給我們在接下來的食物理解任務中處理低質量數據帶來了更多的工作量,因爲UGC覆蓋了近一半的數據集。

數據集中每個食材上的圖像數量如圖2.2所示,少量食材在我們的數據集中出現了很多次。例如,“蔥–scallion”在1,961張圖片中出現次數最多,約佔圖片總數的24.51%。此外,有138種食材出現在不到10張圖片中。例如,只有5張圖片包含“西柚–grapefruit”,8張圖片包含“桃–Peach”。圖2.3顯示了我們數據集中每個食材的邊界框數量。如圖2.3所示,每種食材對應的邊界框數量分佈與圖2.2中包含該食材的圖像數量分佈大致相似,均爲長尾。爲了說明邊界框尺寸的差異,圖2.4給出了不同尺寸邊界框的比例。我們觀察到小尺寸的邊界框(面積比在0.0025 ~ 0.01之間)的比例最大。同時,有超過50%的邊界框的面積比小於0.01,說明數據集中有很多小物體。

表2.1顯示了與食品相關數據集的統計比較。我們可以看到,現有的食品相關數據集主要集中在食品識別任務上,其目的是識別圖像內的食品類別。很少有數據集爲食物邊界框提供標註,這是由於它們的目標是定位整個菜餚,而不是各種類型的食材。相比之下,Recipe 1M爲每個食物圖像提供食材標註。然而,由於缺乏對這些細粒度食材的位置標註,它們只能隱式地建模整個食物圖像與相應食材之間的關聯,從而限制了模型的性能。因此,我們引入了CMIngre,旨在通過食材檢測和檢索任務增強對中餐的理解。

表2.1 現有食品相關數據集之間的統計比較

最後,我們將CMIngre數據集與廣泛使用的目標檢測數據集COCO進行了比較分析。在圖2.5中,橫軸表示每張圖像中標籤種類的數量(在CMIngre中標籤爲食材,在COCO中標籤爲物體)縱軸表示每種圖像的比例。很明顯,CMIngre圖像通常包含更多的對象(在我們的例子中是食材)。具體來說,CMIngre中包含三個以上標籤的圖像的佔比高於MS COCO數據集。這一趨勢在邊界框的數量上也很明顯。如圖2.6所示,與MS COCO相比,我們的數據集中超過5個邊界框的圖像比例更大。綜上所述,CMIngre中的圖像比其他現有數據集具有更豐富的語義和更密集的邊界框,這對圖像理解提出了更艱鉅的挑戰。

3. 方法

在本研究中,我們引入了兩項從食材層面理解中國菜食材的任務,即食材檢測(任務1)和跨模態食材檢索(任務2)。任務1的重點是識別食材並在圖像中標註準確的位置信息,任務2旨在研究圖像與食材組成之間的複雜關係。對於任務1,我們使用現有目標檢測模型在CMIngre數據集上進行微調,構建有關中國菜品理解的新基準;對於任務2,我們在現有跨模態檢索方法的基礎上,提出了一些創新性的做法,填補了有關中國菜品食材粒度理解的空白。

3.1 食材檢測

與傳統的目標檢測數據集相比,CMIngre數據集具有極其詳細的食材分類和密集的邊界框註釋,因此直接利用現存的目標檢測算法進行擬合是一件非常具有挑戰的事情。直接對現有的大規模目標檢測模型 [1] 在原始邊界框註釋上進行微調的效果並不讓人滿意,因此我們採用融合和過濾策略來緩解邊界框密集和尺寸較小帶來的問題。

具體而言,我們首先按照融合前後的邊界框面積百分比 不低於閾值τ的規則,對同一類別的多個邊界框進行融合,在實驗中這個閾值被設置爲0.6。接下來,我們對融合後的邊界框進行排序,並將邊界框的三個最大區域保留爲真值。此外,我們將食材樹層級結構的最低級標籤都轉換爲第三級標籤,例如“紫菜”和“海帶”都融合爲“藻類”,“冬筍”和“酸筍”都融合爲“筍”,這樣可以避免模型無法識別同一分支中高度相似的類別的問題。根據這種轉換,類別總數從429減少到67個。在這種設置下,我們使用如下的兩種不同的基線方法進行實驗。

3.1.1 基於CNN的方法:Faster R-CNN [47] 和YOLO v5 [48]

Faster R-CNN是一種經典的基於卷積神經網絡(CNN)的兩階段目標檢測框架。在第一階段,Faster R-CNN利用CNN提取輸入圖像的特徵映射,然後利用區域提名網絡(RPN)生成候選目標區域。在第二階段,基於候選目標區域,利用圖像區域邊界框迴歸以及區域食材識別兩個約束進行網絡參數的整體更新。相比之下,YOLO(You Only Look Once)是一種單階段目標檢測算法,以其速度和效率而聞名。與Faster R-CNN不同,YOLO在一次評估中處理整個圖像,同時預測多個對象的分類概率和邊界框。

3.1.2 DINO [1]

DINO(DETR with Improved deNoising anchOr boxes)是一個融合對比降噪訓練(contrastive way for denoising training),混合查詢選擇錨點初始化(mixed query selection method for anchr initialization),前向兩次預測(look forward twice scheme for box prediction)的端到端Transformer框架。相比於Faster R-CNN,DINO是一個參數量更大且更高效的目標檢測模型。

評估方案:使用平均精度(AP)來評估基線模型的檢測性能。對於Faster R-CNN,YOLO和DINO,分別評估了不同IoU閾值(0.5、0.75和0.5:0.95)下的標準平均精度結果。

3.2 跨模態食材檢索

圖3.1 中餐理解框架

如圖所示,使用兩個獨立的特徵提取器提取圖像特徵和食材特徵。然後,應用對比約束以端到端的方式來縮小匹配的圖像和食材之間的嵌入距離。考慮到食材檢測能夠學習不同圖像區域中食材的語義嵌入,我們進一步研究了兩階段的檢索模型的有效性,該模型首先使用食材檢測算法提取區域特徵,然後使用區域特徵和食材來訓練一個聯合嵌入模型。

3.2.1 方法1-端到端訓練

在端到端設置中,我們首先將食品圖像和食材組合投影到公共的嵌入空間中,然後使用對比損失來約束跨模態特徵對齊。對於圖像編碼器,受視覺-語言Transformer在各種下游任務中取得成功的啓發,我們採用預訓練的 [49]-[51] CLIP ViT B/16作爲圖像特徵提取器對圖像特徵進行編碼,然後利用線性全連接層將原始圖像特徵投影到公共的嵌入空間中:

3.2.2 方法2-二階段訓練

與圖像編碼器直接提取的全局圖像特徵相比,從食材檢測模型中提取的局部特徵包含了特定的食材語義信息,爲跨模態食材檢索提供了更有利的初始化狀態。爲了利用這一優勢,我們首先使用食材檢測模型提取$Z$個區域特徵。然後,我們提出了一個自適應式池化策略來自動融合多區域特徵和多食材特徵。

4. 實驗

4.1 算法實現細節

CMIngre數據集在本次實驗中被隨機劃分爲6,001個訓練樣本,1,000個驗證樣本和1,000個測試樣本。所有的實驗都使用了PyTorch框架,在2張NVIDIA GTX 3090 GPU上進行實驗。

  • 食材檢測:對於Faster R-CNN框架,與方法 [47],[54] 保持一致,利用ResNet-101作爲特徵提取器,設置batch size爲2,學習率爲0.001,並利用SGD優化器進行端到端檢測優化。對於YOLO算法,遵循官方報告[48]使用yolov5x6進行檢測實驗。對於DINO框架,與官方設置 [1] 保持一致,然後選用Vision Transformer作爲特徵提取器fine-tune整個模型。
  • 跨模態食材檢索:選用Adam優化器訓練整個模型並且設置batch size爲128,最終映射層維度爲1024。對於雙層自注意力編碼機制,選用包含有2層、4個頭部的Transformer作爲每層編碼器,並且設置隱藏層維度爲512。對於圖像食材區域特徵預提取,在Faster R-CNN框架中提取36個維度爲2048的區域特徵,在DINO框架中提取128個維度爲256的區域特徵。爲了增加模型泛化能力,隨機消去20%的圖像區域,並且設置位置編碼向量維度$d_2$爲32。

4.2 實驗結果

4.2.1 食材檢測

爲了驗證現有的檢測框架在CMIngre食材數據集上的有效性,我們利用基於CNN以及基於Transformer的端到端框架。實驗結果如表4.1所示,可以發現YOLO v5,Faster R-CNN和DINO在CMIngre數據集上性能一般。這一結果表明,目前的目標檢測方法爲明確的目標邊界而設計,很難直接檢測到自由形式的食材。這也表明,在食品相關領域開發更多細粒度食材理解算法仍有很大的性能提升空間。與Faster R-CNN相比,DINO在不同的IoU閾值下的檢測性能更好,這說明大規模預訓練模型在食物領域依然存在着較強的理解能力。

此外,爲了驗證微調目標檢測模型實驗的有效性,我們找到了CMIngre數據集和MS COCO數據集中的七個公共類別:蛋糕、西蘭花、蘋果、胡蘿蔔、橙子、香蕉、甜甜圈。接下來,我們選取CMIngre數據集中包含這七類食材的數據,對預訓練模型和使用CMIngre中數據微調後的模型進行了對比驗證。表4.2展示了Faster R-CNN和DINO在CMIngre數據集中公共7類食材上的檢測結果。與Faster R-CNN相比,預訓練的DINO和微調後的DINO都表現出了更優的性能,突出了大規模預訓練模型的泛化能力。此外,在CMIngre數據集上對DINO進行微調後,模型對常見類別的檢測性能有了很大的提高。具體而言,微調後的DINO在7個公共類別上AP50:95、AP50和AP75方面分別比預訓練的DINO提高了18.3%、25.2%和21%,這證明了在CMIngre數據集上進行模型調優的有效性。

表4.1 CMIngre和MS COCO的檢測結果(%),“()”表示檢測方法在MS COCO和CMIngre上的性能差異

表4.2 Faster R-CNN和DINO在MS COCO和CMIngre的共有類別上的檢測性能

4.2.2 跨模態食材檢索

在這一節中,我們重新實現了幾個圖像backbone(ResNet-50, ViT B/16和CLIP ViT B/16)和食材backbone(分層Transformer和分層LSTM)進行性能對比。此外,還進行了兩階段實驗設置,驗證了食材對象和跨模態食材檢索相結合的有效性。實驗結果如表4.3所示,其中APS表示自適應池化策略。最後,在表4.4中,我們重新實現了兩種最先進的跨模式食譜檢索方法(TFood [19] 和VLPCook [56] ),來比較我們提出的CMIngre和Recipe 1M [32] 。

表4.3 CMIngre中跨模態食材檢索性能

結果表明,ResNet+H-LSTM的性能並不令人滿意。我們認爲這是因爲卷積神經網絡的接受域有限,ResNet-50只能捕獲整體圖像的粗粒度語義,而忽略了細粒度的食材特徵。這個結果突出了在跨模態食材檢索中對於圖像進行細粒度分析的重要性。通過利用Transformer中的自注意力機制對不同食材之間的語義關聯進行建模,ResNet+H-Transformer增強了食材組合的表現力,從而提高了檢索性能。

具體來說,在圖像到食材的設置中,medR從62.0降低到40.0。當使用視覺Transformer [58] 作爲圖像backbone時,檢索性能顯著提升。這證明了視覺Transformer通過利用不同圖像區域之間的關係來提取細粒度食材表示的能力。受視覺-語言基礎模型在各種下游任務中獲得成功的啓發,我們採用CLIP [49] 作爲圖像backbone進行實驗,與其他端到端設置相比,CLIP具有最佳的檢索性能。這些實驗結果表明,當採用更深和更先進的backbone時,檢索性能得到了一致的改善。

除此之外,我們還探索了結合食材檢測和跨模態食材檢索的兩階段模型的檢索性能。首先,我們使用Faster R-CNN和DINO提取固定長度的區域特徵。然後,引入自適應池化策略(APS)來融合多區域特徵。如表4.3所示,在所有的評估指標中,兩階段的方法明顯優於端到端的方法,這表明當前的圖像編碼器很難直接從圖像中提取細粒度食材的判別特徵。

在這種情況下,更有效的方法是下訓練一個專門針對食材圖像的檢測模型,然後使用經過訓練的檢測模型提取的細粒度食材特徵進行檢索任務。此外,可以觀察到,與Faster R-CNN相比,使用DINO的區域特徵可以進一步提高檢索性能。這表明食材檢索模型的性能提升可以同步體現在跨模態食材檢索中。

表4.4 CMIngre和Recipe 1M的跨模態檢索性能

爲了進一步將所提出數據集與其他跨模態食品檢索數據集的複雜性進行對比,我們在Recipe 1M中重新實現了兩種最先進的方法 [32] ,並對比了這些方法在CMIngre數據集上的檢索性能。根據表4.4所示,CMIngre數據集上的檢索效率大約是Recipe 1M上的一半,這一顯著差異凸顯了中國食材面臨的更大挑戰。具體來說,Recipe 1M提供了一套全面的食譜細節(包括配料、標題和說明),它豐富了圖像和食譜之間的上下文關係,從而促進了跨模態檢索。相比之下,CMIngre數據集僅侷限於食材信息,這對有效的跨模態檢索提出了更大的挑戰。值得注意的是,我們的兩階段方法明顯優於這些對比方法,這進一步凸顯了兩階段方法的優勢,即訓練食材檢測方法提取細粒度食材特徵可以顯著增強圖像的表示能力。

4.3 可視化

我們從三種類型的數據(菜名,菜譜,用戶生成內容)中隨機採樣一個查詢樣本,執行跨模態檢索任務,並可視化該查詢樣本的Top-5檢索結果。如圖4.1所示,查詢圖像所對應的正確食材組合成功的以最高相似度出現在第一個檢索結果中,驗證了我們圖像搜索食材的有效性。此外,我們觀察到查詢樣本和Top-5檢索結果有着一定程度上的關聯,例如在菜譜(recipe)查詢圖像的檢索結果中,Top-5的食材組合都包含有雞蛋和蔬菜(油菜、蔬菜、西蘭花),並且第一個檢索結果和第二個檢索結果僅僅是“蔬菜”和“油菜”的細微區別,這說明我們的方法可以有效挖掘到圖像和食材間的匹配關係。

如圖4.2所示,上述相同的現象也出現在三類查詢食材的Top-5檢索結果中。我們也在圖4.3中可視化了一些最佳匹配失敗的案例,發現當圖像中所包含的食材不能被清晰認知時,模型會傾向於給出一個相似的具體食材。例如在菜品名稱查詢圖像中,其中的一個綠色食材由於無法被清晰的辨識所以被標註爲更高級的“蔬菜”標籤。然而當模型執行跨模態檢索時,會更傾向於將其認知爲更細粒度“芥菜”和“秋葵”而不是“蔬菜”。另外一個觀察是相比於最佳匹配案例,錯誤案例中Top-5檢索結果的相似度往往傾向於更低且更平均,表示出了模型很難分辨菜品圖像中模糊食材的具體分類。

圖4.1 使用圖像檢索食材組合,三種不同來源查詢圖的top-5檢索結果

圖4.2 使用食材組合檢索圖像,三種不同來源查詢食材組合的top-5檢索結果

圖4.3 三種不同來源查詢圖像最佳匹配失敗示例

此外,按照 [59] 中描述的方法,我們可視化了單個食材的匹配下降分數(MDS)。具體來說,我們將單個食材的MDS定義爲當從食材組合中刪除特定食材時,圖像與其相應食材組合之間的相似性變化。如圖4.4所示,具有明顯視覺特徵的食材往往具有更高的MDS。例如,在第一張圖像中,刪除“米”導致了0.1216的相似度顯著下降,這個下降明顯高於土豆、胡蘿蔔、肉。另一個值得注意的是,具有模糊視覺外觀的食材會對跨模態檢索產生負面影響。例如,在第三張圖中,由於煮熟的青菜缺乏鮮明的視覺特徵,導致圖像與缺乏青菜的食材組合匹配相似度增加。

圖4.4 單個食材在CMIngre上的MDS。MDS最高的食材用紅色表示,MDS爲負的食材用藍色表示

5. 業務應用

菜品作爲餐飲業務的最基本單元,在供給策略運營、用戶需求洞察、業務經營分析等場景都必要依賴。2020年至2021年,到餐研發團隊基於業務菜品數據,進行了標準統一和知識融合,整體菜品知識準確率達到94.51%、覆蓋率達到87.01%。但在局部視角,部分菜品知識屬性受限於獲取信源單一、挖掘技術難度大等原因導致知識覆蓋不足,例如燒烤/火鍋品類準確率僅63.6%,食材屬性覆蓋率67.5%,口味屬性覆蓋率11.9%,影響支持業務精細化、智能化的運營需求。

爲了提升菜品知識的覆蓋,我們提出一套構建多模態知識圖譜的流程,分別從文本和圖像兩個模態獲取菜品知識。

圖5.1 多模態知識圖譜構建流程

對於文本模態,使用命名實體識別提取文本中的食材、口味、口感、菜系、烹飪方法;對於圖像模態,使用目標檢測提取圖像中的食材信息和對應區域對文本信息進行補充。在對單個圖像-文本對構建多模態知識圖譜對基礎上,通過相同食材、口味等信息對不同的圖像-文本對進行關聯,進而構建完整的菜品多模態知識圖譜,從而提升菜品知識覆蓋率。

6. 結論

在本研究中,我們將重點放在中餐食材理解上,它擴展了細粒度對象檢測和檢索的範圍,在中餐領域提供了更廣泛的應用。爲了支持新任務的研究,我們設計了第一個跨模態食材級數據集CMIngre,該數據集由來自菜餚、食譜和UGC三種不同來源的8,001對圖像食材組成,涵蓋了429種不同的中國食材和超過95,290個邊界框。我們在CMIngre數據集上評估了不同目標檢測算法的有效性,表明開發更高級的細粒度食材檢測算法仍然有足夠的性能提升空間。此外,在CMIngre上進行的廣泛的跨模態食材檢索實驗驗證了我們提出的基線的有效性。此外,我們希望這個基準可以激發更多新穎的細粒度食材理解算法的發展,從而促進食品相關領域的進步。

利用以上技術能力,在多模態數據集上建設菜品知識圖譜。對比文本單模態 (知識準確率95%、覆蓋率達到80%),通過在評測數據上進行驗證,該項目提升菜品知識圖譜的屬性知識的質量,知識準確率96.52%、覆蓋率達到87.01%。將菜品知識圖譜的能力應用於相同商品識別的業務場景,通過提供商品理解的關鍵信息,識別的錯誤率從20.38%降低至2.3%,提升美團精細化運營的效率。

作者團隊簡介

到店研發平臺

美團核心本地商業/到店研發平臺是到店業務的技術服務團隊,聚焦公司“零售+科技”戰略,爲美團到店餐飲、休閒娛樂、麗人醫美、教育母嬰、Life Event、酒店、民宿、門票度假等業務提供從客戶線索、商戶入駐、供給上單、交易履約、整合營銷、會員評價、經營收益等全方位技術研究和能力建設,保障到店場景下多業務的高效發展,持續優化用戶體驗,提升商戶數字化經營水平。

高校團隊

劉安安教授團隊爲天津大學圖像所(教育部批准設立),長期從事跨媒體計算和人工智能領域研究,目前擁有全職教授4人、副教授8人、講師2人,在讀博士和碩士百餘人;先後承擔和參與國家重點研發計劃、863計劃、國家自然科學基金、安全部專項等科研項目;獲得天津市科技進步特等獎、國家安全部科技進步獎一等獎等;在IEEE/ACM彙刊、CCF-A類期刊/會議發表論文百餘篇,獲批發明專利百餘項。

8. 招聘信息

美團核心本地商業/到店研發平臺是到店業務的技術服務團隊,聚焦公司“零售+科技”戰略,爲美團到店餐飲、休閒娛樂、麗人醫美、教育母嬰、Life Event、酒店、民宿、門票度假等業務提供從客戶線索、商戶入駐、供給上單、交易履約、整合營銷、會員評價、經營收益等全方位技術研究和能力建設,保障到店場景下多業務的高效發展,持續優化用戶體驗,提升商戶數字化經營水平。

到店研發平臺下的數據智能部,長期招聘AIGC大模型、NLP等相關領域的算法工程師/專家,感興趣的同學可以將簡歷發送至 [email protected]

9. 致謝

本課題是在到店研發平臺和天津大學共同參與下完成。在課題推進過程中,感謝天津大學劉安安教授、王嵐君研究員的悉心指導,以及天津大學張晨宇、張國楷、李秋靜、楊博、胡明望等同學的積極參與,助力課題的順利完成,並在美團餐飲美食場景帶來實際的業務價值。本課題也獲得了2023年度美團科研合作「卓越實踐獎」。

10. 參考文獻

  • [1] H. Zhang, F. Li, S. Liu, L. Zhang, H. Su, J. Zhu, L. M. Ni, and H.-Y. Shum, “Dino: Detr with improved denoising anchor boxes for end-to- end object detection,” arXiv preprint arXiv:2203.03605, 2022, doi:10. 48550/arXiv.2203.03605.
  • [2] Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, and B. Guo, “Swin transformer: Hierarchical vision transformer using shifted windows,” in Proceedings of the IEEE/CVF international conference on computer vision, 2021, pp. 10 012–10 022, doi:10.1109/ICCV48922. 2021.00986.
  • [3] X. Dai, Y. Chen, B. Xiao, D. Chen, M. Liu, L. Yuan, and L. Zhang, “Dynamic head: Unifying object detection heads with attentions,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2021, pp. 7373–7382, doi:10.1109/CVPR46437. 2021.00729.
  • [4] A.-A. Liu, H. Tian, N. Xu, W. Nie, Y. Zhang, and M. Kankanhalli, “Toward region-aware attention learning for scene graph generation,” IEEE Transactions on Neural Networks and Learning Systems, vol. 33, no. 12, pp. 7655–7666, 2021, doi:10.1109/TNNLS.2021.3086066.
  • [5] J. Yang, J. Lu, S. Lee, D. Batra, and D. Parikh, “Graph r-cnn for scene graph generation,” in Proceedings of the European confer- ence on computer vision (ECCV), 2018, pp. 670–685, doi:10.1007/ 978- 3- 030- 01246- 5 41.
  • [6] C. Liu, Z. Mao, T. Zhang, H. Xie, B. Wang, and Y. Zhang, “Graph structured network for image-text matching,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020, pp. 10 921–10 930, doi:10.1109/CVPR42600.2020.01093.
  • [7] H.Diao,Y.Zhang,L.Ma,andH.Lu,“Similarityreasoningandfiltration for image-text matching,” in Proceedings of the AAAI conference on artificial intelligence, vol. 35, no. 2, 2021, pp. 1218–1226, doi:10.1609/ aaai.v35i2.16209.
  • [8] Y. Wang, Y. Su, W. Li, J. Xiao, X. Li, and A.-A. Liu, “Dual-path rare content enhancement network for image and text matching,” IEEE Transactions on Circuits and Systems for Video Technology, 2023, doi:10.1109/TCSVT.2023.3254530.
  • [9] L. Bossard, M. Guillaumin, and L. Van Gool, “Food-101–mining discriminative components with random forests,” in Computer Vision– ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part VI 13. Springer, 2014, pp. 446–461, doi:10.1007/978- 3- 319- 10599- 429.
  • [10] J.ChenandC.-W.Ngo,“Deep-based ingredient recognition for cooking recipe retrieval,” in Proceedings of the 24th ACM international confer-ence on Multimedia, 2016, pp. 32–41, doi:10.1145/2964284.2964315.
  • [11] W. Min, L. Liu, Z. Wang, Z. Luo, X. Wei, X. Wei, and S. Jiang, “Isia food-500: A dataset for large-scale food recognition via stacked global-local attention network,” in Proceedings of the 28th ACM International Conference on Multimedia, 2020, pp. 393–401, doi:10.1145/3394171. 3414031.
  • [12] W. Min, Z. Wang, Y. Liu, M. Luo, L. Kang, X. Wei, X. Wei, and S. Jiang, “Large scale visual food recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, doi:10.1109/TPAMI.2023.3237871.
  • [13] E. Aguilar, B. Remeseiro, M. Bolan ̃os, and P. Radeva, “Grab, pay, and eat: Semantic food detection for smart restaurants,” IEEE Transactions on Multimedia, vol. 20, no. 12, pp. 3266–3275, 2018, doi:10.1109/TMM.2018.2831627.
  • [14] R. Morales, J. Quispe, and E. Aguilar, “Exploring multi-food detection using deep learning-based algorithms,” in 2023 IEEE 13th International Conference on Pattern Recognition Systems (ICPRS), 2023, pp. 1–7, doi:10.1109/ICPRS58416.2023.10179037.
  • [15] G. Ciocca, P. Napoletano, and R. Schettini, “Food recognition: a new dataset, experiments, and results,” IEEE journal of biomedical and health informatics, vol. 21, no. 3, pp. 588–598, 2016, doi:10.1109/JBHI. 2016.2636441.
  • [16] A. Salvador, N. Hynes, Y. Aytar, J. Marin, F. Ofli, I. Weber, and A. Tor-ralba, “Learning cross-modal embeddings for cooking recipes and food images,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 3020–3028, doi:10.1109/CVPR.2017.327.
  • [17] A. Salvador, E. Gundogdu, L. Bazzani, and M. Donoser, "Revamping cross-modal recipe retrieval with hierarchical transformers and self-supervised learning," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 15 475-15 484, do: 10.1109/CVPR46437.2021.01522.
  • [18] M. Carvalho, R. Cadène, D. Picard, L. Soulier, N. Thome, and M. Cord, "Cross-modal retrieval in the cooking context: Learning semantic text-image embeddings," in The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval, 2018, pp. 35-44, doi: 10.1145/3209978.3210036.
  • [19] M. Shukor, G. Couairon, A. Grechka, and M. Cord, *Transformer decoders with multimodal regularization for cross-modal food retrieval," in Proceedings of the IEEE/CV Conference on Computer Vision and Pattern Recognition, 2022, pp. 4567-4578, doi: 10.1109/CVPRW56347.2022.00503.
  • [20] H. Wang, D. Sahoo, C. Liu, K. Shu, P. Achananuparp, E.-p. Lim, and S. C. Hoi, "Cross-modal food retrieval: learning a joint embedding of food images and recipes with semantic consistency and attention mechanism," IEEE Transactions on Multimedia, vol. 24, pp. 2515-2525, 2021, doi: 10.1 109/TMM.2021.3083109.
  • [21] M. Li, P.-Y. Huang, X. Chang, J. Hu, Y. Yang, and A. Hauptmann, "Video pivoting unsupervised multi-modal machine translation," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 3, pp. 3918-3932, 2023, doi: 10.1109/TPAMI.2022.3181116.
  • [22] Chinese cuisine culture, Last accessed on June 23, 2023.
  • [23] "Regulation of food composition data expression," https://www.chinanutri.cn/fgbz/fgbzhybz/201707/P020170721479798369359.pdf,Last accessed on June 23, 2023.
  • [24] T. Joutou and K. Yanai, *A food image recognition system with multiple kernel learning," in 2009 16th IEEE International Conference on Image Processing (ICIP). IEEE, 2009, pp. 285-288, doi: 10.1109/ICIP.2009.5413400.
  • [25] Y. Kawano and K. Yanai, "Food image recognition with deep con-volutional features," in Proceedings of the 2014 ACM International Joint Conference on Pervasive and Ubiquitous Computing: Adjunct Publication, 2014, pp. 589-593, doi: 10.1145/2638728.2641339.
  • [26] K. Yanai and Y. Kawano, "Food image recognition using deep con-volutional network with pre-training and fine-tuning," in 2015 IEEE International Conference on Multimedia & Expo Workshops (ICMEW). IEBE, 2015, p. 1-6, doi: 10.1109/ICMEW.2015.7169816.
  • [27] M. T. Turan and E. Erzin, "Domain adaptation for food intake classification with teacher/student learning," IEEE Transactions on Multimedia, vol. 23, pp. 4220 4231, 2020, doi: 10.1109/TMM.2020.3038315.
  • [28] H. Liang, G. Wen, Y. Hu, M. Luo, P. Yang, and Y. Xu, "Mvanet: Multitask guided multi-view attention network for chinese food recognition," IEEE Transactions on Multimedia, vol. 23, pp. 3551-3561, 2020, doi: 10.1109/TMM.2020.3028478.
  • [29] J. He, L. Lin, H. A. Eicher-Miller, and F. Zhu, "Long-tailed food clas-sification," Nutrients, vol. 15, no. 12, 2023, doi: 10.3390/nu15122751.
  • [30] K. Aizawa, Y. Maruyama, H. Li, and C. Morikawa, "Food balance estimation by using personal dietary tendencies in a multimedia food log," IEEE Transactions on multimedia, vol. 15, no. 8, pp. 2176-2185, 2013, doi: 10.1109/TMM.2013.2271474.
  • [31] J.-J. Chen, C.-W. Ngo, F.-L. Feng, and T.-S. Chua, "Deep understanding of cooking procedure for cross-modal recipe retrieval," in Proceedings of the 26th ACM international conference on Multimedia, 2018, pp.1020-1028, do: 10.1145/3240508.3240627.
  • [32] Y.-C. Lien, H. Zamani, and W. B. Croft,"Recipe retrieval with visual query of ingredients," in Proceedings of the 43rd International ACM SI-GIR Conference on Research and Development in Information Retrieval, 2020, pp. 1565-1568, do: 10.1145/3397271.3401244.
  • [33] W. Min, B.-K. Bao, S. Mei, Y. Zhu, Y. Rui, and S. Jiang. "You are what you eat: Exploring rich recipe information for cross-region food analysis," IEEE Transactions on Multimedia, vol. 20, no. 4, pp. 950-964, 2017, doi: 10.1109/TMM.2017.2759499.
  • [34] G. Ciocca, P. Napoletano, and R. Schettini, *Learning cnn-based features for retrieval of food images," in New Trends in Image Analysis and Processing-ICIAP 2017: ICIAP International Workshops, WBICV, SSPandBE, 3AS, RGBD, NIVAR, IWBAAS, and MADiMa 2017, Catania, Italy, September 11-15, 2017, Revised Selected Papers 19. Springer, 2017, pp. 426 434, doi: 10.1007/978-3-319-70742-6_41.
  • [35] X. Chen, Y. Zhu, H. Zhou, L. Diao, and D. Wang, "Chinesefoodnet: A large-scale image dataset for chinese food recognition," arXiv preprint arXiv: 1705.02743, 2017, doi: 10.48550/arXiv. 1705.02743.
  • [36] S. Hou, Y. Feng, and Z. Wang, "Vegfru: A domain-specific dataset for fine-grained visual categorization," in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 541-549, doi:10.1109/ICCV.2017.66.
  • [37] J. Qiu, F. P.-W. Lo, Y. Sun, S. Wang, and B. Lo, "Mining discriminative food regions for accurate food recognition," arXiv preprint arXiv:2207.03692, 2022, doi: 10.48550/arXiv.2207.03692.
  • [38] J. Wang, X. Ding, and B. Guo, "High precision food detection method based on deep object detection network," in 2021 IEEE Sth Information Technology, Networking, Electronic and Automation Control Conference (ITNEC), vol. 5. IEEE, 2021, pp. 646-650, doi: 10.1109/ITNEC52019. 2021.9587189.
  • [39] $. Akti, M. Qarage, and H. K. Ekenel, "A mobile food recognition system for dietary assessment," in International Conference on Image Analysis and Processing. Springer, 2022, pp. 71-81, doi: 10.1007/978-3-031-13321-3_7.
  • [40] Y. Matsuda, H. Hoashi, and K. Yanai, "Recognition of multiple-food images by detecting candidate regions," in 2012 IEEE International Conference on Multimedia and Expo.IEEE, 2012, pp. 25-30, doi: 10.1109/ICME.2012.157.
  • [41] Y. Kawano and K. Yanai, "Foodcam-256: a large-scale real-time mobile food recognifionsystem employing high-dimensional features and compression of classifier weights," in Proceedings of the 22nd ACM international conference on Multimedia, 2014, pp. 761-762, doi:10.1145/2647868.2654869.
  • [42] B. Muñoz, I. Chirino, and E. Aguilar, "Can deep learning models recognize chilean diet," IEEE Latin America Transactions, vol. 20, no. 9, pp. 2131-2138, 2022, doi:10.1109 TLA.2022.9878168.
  • [43] Y. Kawano and K. Yanai, "Automatic expansion of a food image dataset leveraging existing categories with domain adaptation," in Computer Vision - ECCV 2014 Workshops, 2015, pp. 3-17, doi:10.1007/ 978-3-319-16199-0_1.
  • [44] J. Chen, L. Pang, and C.-W. Ngo, "Cross-modal recipe retrieval: How to cook this dish?" in MultiMedia Modeling: 23rd International Conference, MMM 2017, Reykiavil, Iceland, January 4-6, 2017, Pro-ceedings, Part I 23.978-3-319-51811-4_48. Springer, 2017, pp. 588-600, doi: 10.1007/
  • [45] X. Li, J. Feng, Y. Meng, Q. Han, F. Wu, and J. Li, "A unified MRC framework for named entity recognition," in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020, Online, July 5-10, 2020, 2020, pp. 5849-5859, doi: 10.18653/V1/ 2020.ACL-MAIN.519.
  • [46] Y. Kawano and K. Yanai, "Automatic expansion of a food image dataset leveraging existing categories with domain adaptation," in Computer Vision-ECCV 2014 Workshops: Zurich, Switzerland, September 6-7 and 12, 2014, Proceedings, Part III 13. Springer, 2015, pp. 3-17, doi: 10.1007/978-3-319-16199-0_1.
  • [47] 1 S. Ren, K. He, R. Girshick, and J. Sun, "Faster I-cnn: Towards real-time object detection with region proposal networks, "Advances in neural information processing systems, vol. 28, 2015, do: 10.1109/TPAMI. 2016.2577031.
  • [48] G. Jocher, "Yolov5 by ultralytics,* 2020, doi: 10.5281/zenodo.3908559.[Online]. Available: https://github.com/ultralytics/yolov5
  • [49] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark et al., *Learning transferable visual models from natural language supervision," in International conference on machine learning. PMLR, 2021, pp. 8748-8763, doi: 10.48550/arXiv.2103.00020.
  • [50] L. H. Li, P. Zhang, H. Zhang, J. Yang, C. Li, Y. Zhong, L. Wang,L. Yuan, L. Zhang, J.-N. Hwang et al., "Grounded language-image pre-training," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 10 965-10 975, doi: 10.48550/ arXiv.2112.03857.
  • [51] H. Zhang, P. Zhang, x. Hu, Y-C. Chen, L. Li, x. Dai, L. Wang, L. Yuan, J.-N. Hwang, and J. Gao, "Glipv2: Unifying localization and vision-language understanding," Advances in Neural Information Processing Systems, vol. 35, pp. 36 067-36080, 2022, doi: 10.48550/arXiv.2206.05836.
  • [52] K.-H. Lee, X. Chen, G. Hua, H. Hu, and X. He, "Stacked cross attention for image-text matching," in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 201-216, doi: 10.1007/ 978-3-030-01225-0_13.
  • [53] J. Chen, H. Hu, H. Wu, Y. Jiang, and C. Wang, "Learning the best pooling strategy for visual semantic embedding," in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021, doi: 10.1109/ CVPR46437.2021.01553.
  • [54] J. Yang, J. Lu, D. Batra, and D. Parikh, "A faster pytorch implementation of faster r-cnn. "https://github.com/jwyang/faster-renn.pytorch, 2017.
  • [55] P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang,*Bottom-up and top-down attention for image captioning and visual question answering," in CVPR, 2018, doi: 10.1109/CVPR.2018.00636.
  • [56] M. Shukor, N. Thome, and M. Cord, "Vision and structured-language pretraining for cross-modal food retrieval," Available at SSRN 4511116, 2023, doi: 10.48550/arXiv.2212.04267
  • [57] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan et al., "Microsoft coco: Common objects in context," in European conference on computer vision. Springer, 2014, pp.1740-755, doi: 10.1007/978-3-319-10602-1_48.
  • [58] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly et al., "An image is worth 16x16 words: Transformers for image recognition at scale," arXiv preprint arXiv:2010.11929, 2020, doi:10.48550/arXiv.2010.11929.
  • [59] Z. Zheng, L. Zheng, M. Garrett, Y. Yang, M. Xu, and Y.-D. Shen, "Dual-path convolutional image-text embeddings with instance loss," ACM Trans. Multimedia Comput. Commun. Appl., vol. 16, no. 2, 2020, doi: 10.1145/3383184.

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行爲,請發送郵件至[email protected]申請授權。

| 在美團公衆號菜單欄對話框回覆【2023年貨】、【2022年貨】、【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可查看美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行爲,請發送郵件至[email protected]申請授權。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章