首次曝光！在線視頻衣物精確檢索技術_開啓刷劇敗明星同款時代

原文鏈接：[url]http://click.aliyun.com/m/26770/[/url]
摘要： CVPR是由全球最大的非營利專業技術學會IEEE（電氣和電子工程師協會）舉辦的計算機視覺領域的國際頂會，2017CVPR收到超過2500篇論文投遞，最終收錄不到800篇，阿里巴巴集團iDST和AI LAB 有多篇論文被收錄。

CVPR是由全球最大的非營利專業技術學會IEEE（電氣和電子工程師協會）舉辦的計算機視覺領域的國際頂會，2017CVPR收到超過2500篇論文投遞，最終收錄不到800篇，阿里巴巴集團iDST和AI LAB 有多篇論文被收錄。

今天爲大家深入解讀被CVPR 2017收錄的論文之一、來自阿里巴巴iDST 視頻分析團隊的《從視頻到電商：視頻衣物精確檢索》。

《從視頻到電商：視頻衣物精確檢索》圍繞視頻電商業務場景，提出了一個在線視頻衣物精確檢索系統。該系統能夠滿足用戶在觀看影視劇時想要同時購買明星同款的需求。

整個系統採用了目前最先進的衣物檢測和跟蹤技術。針對明星同款檢索中存在的多角度、多場景、遮擋等問題，提出可變化的深度樹形結構（ReconfigurableDeep Tree structure）利用多幀之間的相似匹配解決單一幀檢索存在的遮擋、模糊等問題。該結構可以認爲是對現有attention模型的一種擴展，可以用來解決多模型融合問題。

image
論文技術在天貓魔盒視頻中應用

業務場景及研究問題：視頻電商中的衣物精確匹配

早在2014年，阿里與優酷土豆發佈視頻電商戰略，稱未來可以實現邊看邊買，使得視頻電商的概念，繼微博電商，朋友圈電商之後浮出水面。電商平臺擁有少量商品，而視頻網站具有巨大的流量，二者結合是發展的必然結果。電商平臺可以藉助視頻網站的流量來實現導流和平臺下沉，而視頻網站則需要通過廣告點擊和商品成交來實現流量變現，因此二者的結合可謂一拍即合。

視頻電商的商業主旨是打造以視頻爲入口的購物服務，視頻中出現所有物體都可能是商品，提供包括邊看邊買、明星同款、廣告投放等服務，它集娛樂、休閒、購物於一體，給用戶構造出一種“身臨其境”情境營銷，或者是明星同款的衝動式消費。視頻電商目前已經不是停留在概念層次了，視頻網站向電商的導流轉化也一直在不斷的嘗試中。

影視劇中的服飾存在較大的差異性和異構性，同一個目標往往展現出較大的差異。服飾購物圖像通常具有雜亂、多樣的背景，而且常在戶外拍攝。多樣化的背景可能是建築物，街道、風景、汽車等多種情況。由於自然場景下受到光線、角度、大小、分辨率、幾何學和光度學的變化等影響，使得服飾呈現出現的外形極爲複雜，即使是同一件服飾也會出現變化較大的效果。

同時在線網站爲更好地展示服飾的效果，通常聘請時尚模特穿着所售商品，模特/人物姿勢變化也是導致服飾變化的一個重要因素。由於以上這些因素，使得視頻明星同款搜索成爲了一個極具挑戰性的技術問題。

網絡結構及技術細節

AsymNet網絡結構：整個Asymnet深度神經網絡結構如圖1所示。當用戶通過機頂盒（天貓魔盒）觀看視頻時，該網絡將從電商網站（淘寶、天貓）檢索到與之匹配的衣服，並推薦給用戶。

爲忽略複雜背景對檢索結果的影響，更準確的進行服裝定位，我們首先應用服飾檢測技術，提取得到服飾區域一組候選框。然後對這些候選框進行跟蹤，得到明星同款在視頻中的的運動軌跡。對於衣物候選區域和運動軌跡我們分別利用用圖像特徵網絡（IFN）和視頻特徵網絡（VFN）進行特徵學習。

考慮到服裝的運動軌跡，衣物精確檢索問題被定義爲不對稱（多對單）匹配問題，我們提出可變化的深度樹形結（Reconfigurable Deep Tree Structure），利用多幀之間的相似匹配解決單一幀檢索存在的遮擋、模糊等問題。後續本文將詳細介紹模型的各個部分。

image
圖 1 Asymnet深度神經網絡結構

圖像特徵網絡（IFN）：傳統CNN網絡要求輸入圖像爲固定的227x227（因爲CNN網絡中的卷積層需要有一個確定的預定義的維度）。在視頻電商業務場景中，因爲衣物檢測候選框爲任意大小，尺度變化很大，傳統CNN網絡無法進行有效的特徵學習。

針對這一問題，我們利用空間金字塔池化結構（SPP）體系結構，如圖2所示。它通過空間池聚合最後一個卷積層的特徵，從而使池區域的大小與輸入的大小無關。

image
圖 2 Asymnet圖像特徵網絡（IFN）

視頻特徵網絡 (VFN)：爲了更好的考慮視頻的空間序列模式，進一步提高衣物檢索的性能。基於 LSTM，我們提出了視頻特徵網絡 (VFN)，如圖3所示。其中實驗驗證明兩層堆疊式 LSTM 結構能夠在視頻特徵學習中得到最佳性能。

image
圖 3 Asymnet視頻特徵網絡(VFN)

相似性網絡：明星同款匹配不同於近似衣物檢索，精確匹配要求完全一致。在完全一致的要求下，傳統的通過相似性計算來進行檢索的方法，不能滿足明星同款精確匹配要求。已有的方法通常將精確匹配問題轉換爲一個二分類問題，但這種方式適應性差，只能利用單一時刻的視頻幀。

爲了能夠利用整個衣物運動軌跡，我們提出瞭如下的可變化的深度樹形結構（ReconfigurableDeep Tree structure）將匹配問題轉換爲邏輯迴歸問題。匹配網絡擬採用基於混合專家系統的邏輯迴歸網絡。該結構可以認爲是對現有attention模型的一種擴展，可以用來解決多模型融合問題。

image
圖 4 Asymnet相似性網絡

整個模型的目標函數是綜合考慮每一幀的匹配結果，得到基於整個衣物運動序列和電商衣物的相似性，整個系統可以建模爲對如下目標公式進行求解：

image

類似於attention機制，我們提出如下後驗概率模型，來對上式進行求解：

image

得到如下梯度並採用端到端方式進行網絡學習。

image

試驗結果：我們利用業務數據和最新的衣物檢索方法進行了對比，試驗結果如下表所示。相對於alexnet，Asymnet在前20的檢索精確率指標上，其性能幾乎提高了進一倍。

相對於其他2種網絡CS和RC，我們發現RC的性能略優於CS，因爲RC具有較強的識別能力差異較小（採用多任務學習）。甚至在對於某些類別（無明顯差別）RC在精確率上甚至略好於AsymNet，但是總的來說AsymNet比目前現有的方法擁有更好的性能。因爲Asymnet可以處理現有的視頻的時空動態變化，並結合自動視頻幀的自動調節爐排判別信息的融合策略。

image

本文出自阿里技術公衆號，原文鏈接

如果您發現本社區中有涉嫌抄襲的內容，歡迎發送郵件至：[email protected] 進行舉報，並提供相關證據，一經查實，本社區將立刻刪除涉嫌侵權內容。
原文鏈接：[url]http://click.aliyun.com/m/26770/[/url]

aikudemn

發佈了105 篇原創文章 · 獲贊 6 · 訪問量 18萬+

私信關注

首次曝光！在線視頻衣物精確檢索技術_開啓刷劇敗明星同款時代

985 碩士程序員，空窗 4 個月沒有 Offer！

【入門教程】5分鐘教你快速學會集成Java springboot ~

營銷系統黑名單優化：位圖的應用解析

一文搞懂 Spring 循環依賴

我真的從測試轉成了開發......

盛大發布 | Zabbix 7.0 LTS--性能與擴展的卓越融合

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

針對GZIP文件類型的並行讀取

大神帶你分分鐘超越最好結果——基於分佈式CPU計算的Deeplearning4j遷移學習應用實例...

首次曝光！在線視頻衣物精確檢索技術_開啓刷劇敗明星同款時代

5個步驟 & 7個提示 | 一份開啓Kaggle競賽征途的初學者指南

關於程序員之間喪心病狂的鄙視鏈——編程語言篇

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結