讀論文,衣物檢索:Multi-task curriculum transfer deep learning of clothing attributes

Multi-taskcurriculum transfer deep learning of clothing attributes

2016on wacv (winter conference on application of computer version)

目的是爲了將賣家秀訓練的網絡識別出買家秀

這篇文章主要用到了遷移學習transfer learning。

目前(2016.12)的頂尖的衣服識別網絡FashionNet, DARN and DDAN

與DDAN/DARN和FashionNet的區別

1.       與DDAN:DDAN沒有使用相同圖片對(pair reltions)

2.       與DARN:DARN用到了同衣物像對,但是網絡結構中,只使用了FC來學習表達屬性,以及接下來的屬性分類。

3.       與Fashionnet:MTCT不需要使用landmark,這些屬性位置的標註信息,因此對數據的要求更開放



關於要解決的問題的定義

每件衣服的圖片有一系列的元標籤(如衣物類別,領型),屬於多標籤識別任務 multi-label recognition problem

原來的數據sourceimages是從網店上獲取的online shopping,有賣家秀屬性;目標數據target images是相應的留言欄中得到的買家秀自拍照selfie,數量少。但是有助於遷移學習的是這麼得到是圖片有成對的對應關係。

元標籤相對於衣物是局部的關係be localised to image regions; 不同風格的照片之間是全局的關係holistic image-level。

困難與方案

1.       同樣是有兩個數據域,two-domains。同時,其中一個域的數據缺少人工標註訓練數據。這裏使用多任務聯合訓練網絡結構,抓取潛在是屬性間關係的方法。

2.       對於細粒度屬性,是使用MTCT多任務網絡對屬性建模。

3.       同時,學習策略上採用先易後難的“課程學習”的方法。


屬性域的問題

除了圖片樣式和背景差異明顯外,數據域不同的兩個額外的潛在含義還包括:

首先是標註信息在不同域中不同。

免費網上爬取的數據屬性的精度不如人工標註的準確度高


數據集的問題
源數據集的圖片比目標域的圖片多,圖片數量的不一致(控制圖片及標註數量的情況下,有可能出現)

相同屬性被標註爲不同的類別。

cross-domain pair relation對不同數據域的編碼很重要

網絡結構

Multi-taskregression networks 用於人臉建模,這篇文章使用了與之相似的想法——使用網絡學習一種衣物多任務區分性網絡。

使用多任務網絡,相比於獨立屬性建模的方式,用到了更少的需要學習的參數,不容易過擬合。Compared to independent attribute modelling, such multi-tasklearning also involves a smaller number of to-be-learned model parameters andthus with a lower model overfitting risk towards the given training data,beyond modelling mutual relations among different types of attributes and theircommon representations.

這個網絡MTN有5個堆疊的NIN卷積網絡單元,和屬性個數相同的平行分支。每個分支是三個FC層來模擬相應的類別屬性,使用softmax對各類別分類。

在這裏之所以三層FC,是因爲需要針對特徵有表徵學習,這是不同於DARN網絡的地方。

Cross-domaintransfer learning

克服買家秀數據量少的困難,作者使用的方法是上圖中的CT方法課程遷移學習:人和動物學習東西的策略是先易後難,逐步的學習,而不是盲目的隨機獲取。

針對這篇文章要解決的問題,難易程度的排序有:賣家秀圖多質高樣式多,比買家秀給力。局部和全局特徵相比,局部的是具體特徵;全局的是相互對應的目標對,是抽象的,holistic (cross-domain pairing) and local annotations (source domainattributes)。

遷移的思想

是:使次目標簡單些,使用遞進學習方法(subsequent incremental learning),這甚至都符合心理學中的中間值策略consistent with the notion of adaptive value of starting indevelopmental psychology。遷移時,主要是遷移神經網絡學得的關於目標的又與具體數據不相干的目標(衣物)特徵信息,特別是深度神經網絡中的低維度信息。

具體方式是:構建三元組{源圖片,目標中相同圖片作爲正樣本,目標中不同圖片作爲負樣本}然後使用trilet loss,計算loss所用的特徵爲最後一層卷積層結果.

最後使用的時候,只使用遷移後的目標網絡.

關於數據:

細粒度的衣物屬性包括:種類,釦子,顏色,長度,款式,形狀,領子,袖長,袖子形狀.

這些屬性的特徵空間不一樣大,即可選空間不一樣

這些屬性間的差異可能很微小,subtle,纖維和棉料.

屬性標註是整幅圖層面上的,沒有確切的位置,所以是弱監督分類

如果數據是網店展示的和街拍照片,又有很大的差異.

實施細節

fast rcnn提取衣物,然後裁剪出來。

評價方法:

DeepDomain Adaptation Network (DDAN):可跨域的特徵識別方法,通過得到兩個域的中間狀態學習特徵。capable of learning domain invariant features by particularlyaligning middle level representations of two domains

DualAttribute-aware Ranking Network (DARN):通過屬性標註以及跨域的特徵對來學習

FashionNet:多任務識別

對於MTCT模型,有以下4中方式:

不遷移學習:直接將源數據訓練的網絡應用在目標數據中。這可以秀出神經網絡的強大的泛化能力。

JAN:使用DARN作爲基礎,將DARN在源數據集中訓練,直接在目標數據集中測試。

Uniteddomains:將源數據集和目標數據集合並,特徵的泛化能力可以因爲數據變多進一步提高。

微調的方法:經典的vanilla transfer learning,即fine-tuning

MTCT:這篇文章的方法

結果:

MTN(NoAdpt)比r JAN(NoAdpt) (DARN)有更好的泛化能力,說明多任務學習有助於提高精度。

MTN(UD)好於MTN(NoAdpt),說明源數據集和目標數據集差異大時,學習目標數據集中的特徵是有必要的

MTN(FTT)要更好一些,fine-tune可提高精度有論文有相似的證明,此文中,先從源數據集中訓練,再在街拍數據集中訓練。有由易到難的訓練策略。不過這種方式,沒有用到圖片對的這一有利信息。

這就是MTCT,由易到難,多層次信息。

訓練數據大小對訓練結果的影響

多個模型,選取原數據集的部分數據子集{100%,75%, 50%, 10%}用於訓練,看他們幾個的表現。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章