基於電商多模態概念知識圖譜增強的電商場景圖文模型 FashionKLIP

近日，阿里雲機器學習平臺PAI與復旦大學肖仰華教授團隊、阿里巴巴國際貿易事業部ICBU合作在自然語言處理頂級會議ACL2023上發表基於電商多模態概念知識圖譜增強的電商場景圖文模型FashionKLIP。FashionKLIP是一種電商知識增強的視覺-語言模型。該論文首先設計了從大規模電商圖文數據中自動化構建多模態概念級知識圖譜的方案，隨後將概念級多模態先驗知識注入到VLP模型中，以實現跨模態圖文樣本在概念層面進一步對齊。

論文：
Xiaodan Wang, Chengyu Wang, Lei Li, Zhixu Li*, Ben Chen, Linbo Jin, jun huang, Yanghua Xiao* and Ming Gao, FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal Conceptual Knowledge Graph. ACL 2023 （Industry Track)

背景

圖文檢索作爲一項流行的跨模態任務，在廣泛的工業應用中具有很強的實用價值。視覺-語言預訓練(VLP)模型的蓬勃發展大大提高了跨不同模態數據的表示學習，從而帶來了顯著的性能提升。然而，電商領域的數據具有其自身的特性，如下圖(a)所示：1)通用場景的文本大多包含完整的句子結構描述，而電商場景中的描述或查詢通常由多個形容性短語組成，描述了產品的材質或風格等細節信息。2)通用領域的圖像通常具有複雜的背景；相比之下，商品圖像主要包含一個大的商品圖，沒有很多背景物體。

(a) 電商場景的圖像-文本對示例

基於電商圖文的VLP模型Fashion-BERT、KaleidoBERT、CommerceMM、EI-CLIP和FashionViL等大大提高了電商圖文檢索任務的性能，但使用不同角度的商品圖或基於圖像塊的分類方法仍未能解決細粒度的跨模態對齊問題，因而導致了圖像和文本之間的細節匹配不準確，模型缺乏跨模態語義級對齊能力。其次，通用領域模型可以通過目標檢測、場景圖解析或語義分析來實現細粒度交互，但是這些方法難以直接應用於電商場景，也使得電商中的圖文檢索任務是更具挑戰。

基於此，我們提出了一種電商知識增強的VLP模型FashionKLIP。一共包含兩部分內容：數據驅動的構建策略，從大規模電商圖文語料庫中構建多模態電商概念知識圖譜(FashionMMKG)；和訓練融入知識的訓練策略，學習兩種模態的圖像-文本對的表示對齊，並通過將文本表示與FashionMMKG中時尚概念的視覺原型表示進行匹配，進一步得到概念對齊。

模型設計

模型包含兩部分，如圖(b)所示：第一部分，構建時尚多模態知識圖譜FashionMMKG：通過分析大量的時尚文本來抽取並確定概念集，然後通過構建層次樹來展示不同粒度下概念之間的關係，並在視覺層次上將每個概念與正確的圖像匹配。第二階段，融入跨模態知識的細粒度訓練：不僅匹配輸入文本中的概念到FashionMMKG，而且將提取到的新概念掛載到相應的概念層級樹中以擴充。每個概念選擇與輸入圖像最相似且考慮多樣性的前個圖像作爲視覺原型，在概念層面進行對齊優化設計。

(b) 以電商圖像及文本爲輸入的 FashionKLIP 模型架構

FashionMMKG構建

採用自動化的構建方法，建立以電商概念爲中心的多模態知識圖譜，包含文本和視覺兩個模態。

文本模態：通過挖掘海量時尚文本確定概念集，然後將每個概念與對應的圖像進行匹配。我們提取圖文電商數據庫中所有的文本，並利用NLP工具spacy進行句子成分分析、詞性標註，得到多粒度的概念短語。對於不同粒度的概念短語，通過判斷兩個概念是否相互包含，建立概念間關係三元組的形式的上下位關係。如圖(b)中的<"short sleeve t-shirt in white", is-a, "short sleeve t-shirt">。所有抽取出的關係三元組被組織成一個層次結構，如圖(c)所示。層次結構的構建過程是動態的，當新概念出現時，可以將其添加到現有的層級樹中。

（c) 以“shorts”爲根節點概念的層級子樹結構

視覺模態：我們採用基於提示的圖像檢索方法爲每個概念匹配圖像，基於圖像和文本特徵的餘弦距離，選擇相似度最高的top- 圖像作爲概念的視覺原型，並採用MMR算法來保證所選圖像的多樣性。這一過程在後續訓練中將被迭代更新。

FashionKLIP訓練

在預處理階段，對於輸入的文本進行概念提取，並且對於部分未能與FashionMMKG 中的概念集合匹配上的新出現的概念，自動擴展FashionMMKG。FashionKLIP模型爲雙流架構，包含圖像和文本兩個編碼器，以保證在下游檢索任務上圖文匹配的效率。

如圖(b)所示，FashionKLIP由兩個任務組成：用於全局匹配圖像和文本的圖像-文本對比學習(ITC)，以及用於概念級對齊的概念-視覺對齊學習(CVA)。

ITC：我們訓練了一個CLIP風格的模型來學習圖像-文本對的全局表示。對於每個訓練批次中的圖文對，優化圖像-文本和文本-圖像的對比匹配損失。
CVA：我們利用統一的對比學習框架來對齊時尚概念和FashionMMKG中的視覺表示。將輸入文本中的多粒度概念短語集合集成到我們的模型中，並進一步的從層次樹中引入每個概念的父節點。對於每個概念與其最相似的top 圖像，計算每個圖像和輸入圖像之間的相似度，選擇得分最高的一組圖像。我們採用加權交叉熵損失，以概念圖像與輸入圖像之間的相似度作爲權重，進行概念與最佳匹配概念圖像的交叉熵損失進行計算。

模型評測

爲了評測FashionKLIP模型的效果，我們在當前流行的時尚基準數據集FashionGen上進行了實驗，並根據現有sota模型的評測方式採用了“full”和“sample”兩種評測設置，實驗結果如下：

FashionGen數據集上的圖文檢索評測結果"sample"

FashionGen數據集上的圖文檢索評測結果"full"

在兩種測評設置下的實驗結果表明，FashionKLIP在電商圖文檢索任務上的性能優於最先進的模型。

爲了進一步驗證FashionKLIP方法的實用性，我們還將其應用於實際場景：商品搜索平臺，在圖像-商品和文本-商品兩個檢索子任務上進行了零樣本場景下的驗證，並將其與基線方法CLIP比較，實驗結果如下：

上述結果也進一步證明了FashionKLIP的實用價值及高效性。在未來，我們會將知識增強的策略應用於一般的大規模預訓練，從而能夠爲更多的多模態任務帶來好處。爲了更好地服務開源社區，FashionKLIP算法的源代碼和模型即將貢獻在自然語言處理算法框架EasyNLP中，歡迎從業人員和研究者使用。

EasyNLP開源框架：https://github.com/alibaba/EasyNLP

參考文獻

Dehong Gao, Linbo Jin, Ben Chen, Minghui Qiu, Peng Li, Yi Wei, Yi Hu, and Hao Wang. FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval. ACM SIGIR, 2020: 2251-2260.
M Zhuge，D Gao，DP Fan，L Jin，B Chen，H Zhou，M Qiu，L Shao. Kaleido-BERT: Vision-Language Pre-training on Fashion Domain. CVPR, 2021: 12647-12657.
Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision. PMLR ICML, 2021: 8748--8763.
Rostamzadeh N, Hosseini S, Boquet T, et al. Fashion-gen: The generative fashion dataset and challenge. arXiv, 2018.
Yu L, Chen J, Sinha A, et al. Commercemm: Large-scale commerce multimodal representation learning with omni retrieval. ACM SIGKDD, 2022: 4433-4442.
Ma H, Zhao H, Lin Z, et al. EI-CLIP: Entity-Aware Interventional Contrastive Learning for E-Commerce Cross-Modal Retrieval. CVPR, 2022: 18051-18061.

論文信息

論文名字：FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal Conceptual Knowledge Graph.

論文作者：王小丹、汪誠愚、李磊、李直旭、陳犇、金林波、黃俊、肖仰華、高明

論文PDF鏈接：https://aclanthology.org/2023.acl-industry.16.pdf

點擊立即免費試用雲產品開啓雲上實踐之旅！

原文鏈接

本文爲阿里雲原創內容，未經允許不得轉載

基於電商多模態概念知識圖譜增強的電商場景圖文模型 FashionKLIP

背景

模型設計

FashionMMKG構建

FashionKLIP訓練

模型評測

參考文獻

論文信息

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

南京大學×百度“星河杯”AI 大模型創意校園賽正式起航

實用分享！用Axure RP構建交互的5個小技巧

大模型微調提升AI應用性能

LoRA微調語言大模型的實用技巧

系統整容紀：責任鏈設計模式的應用實戰（爆燈了，研發工期由45天降爲1天）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結