基於分割和識別的服飾商品的自動推薦

衣服商品的推薦

衣服的自動推薦一直是一個商業熱點，如何根據現有的衣服的特徵（顏色，紋理，款式等）在數據庫中找出相似度最高的衣服，並推薦給用戶是非常具有挑戰性的。目前常用的服裝推薦系統是基於文本標註的，但是文本標註的成本非常高，目前有不少的方案都採用了弱監督的學習方式，或者採用sift特徵點等作爲圖像檢索的依據，但是效果依然不理想，這篇博客主要分析2013年的一篇論文Getting the Look: Clothing Recognition and Segmentation for Automatic Product Suggestions in Everyday Photos。
這篇文章把服裝的檢測，分割，識別，特徵識別作爲一體來做，能夠在服裝的推薦系統中取得不錯的效果，這篇文章從人體姿態識別開始做起，然後分割出最有可能是衣服的區域，在分割前景和背景的時候，作者使用了一種空間表達mask，用來表達衣服，頭髮，帽子，鞋子等信息。
第一步，我們從一些開源的數據集裏面找到一些模特人體估計的數據集來訓練生成我們的人體關鍵點檢測網絡模型。這些人體姿態估計數據是開源，不難找到。常見的有26點的人體姿態估計和19點的人體姿態估計。
下面是作者貼出的基於人體特徵點的框選區域：

但是經過第一步處理的區域非常的粗糙，不足以做衣服的識別的支撐，第二步，作者生成了一個概率圖，用於估計衣服商品出現的可能區域，結合衣服出現的區域信息，利用區域信息作了一個投票算法，用來描述出人體的粗糙的輪廓，投票算法結果如下：

雖然現在有了概率圖，有了前景，有了背景，但是距離衣服的分割還是很遠，進一步利用目前已有的姿態估計的信息，結合近似高斯模型（AGM）來做聚類，聚類的目的是可以把前景的部分進一步分離開，比如屬於腳的部分就可能屬於鞋子等，屬於頭部可能屬於帽子和頭髮的概率更高。首先作者確定了K個類別（帽子，鞋子等）。

如此便得到了一個“稍微準確”分割模型，ps（值得注意的是，現在有的服裝分割數據和網絡模型能夠做出比這個準確很多分割結果）。雖然看起來還是很醜陋，但是已經大體上能夠用了。現在分割結束了，下一步便是做特徵提取，提取商品的屬性的時候，提取特徵的時候，作者利用局部敏感哈希索引表（LSH）來表達分割結果，利用局部哈希計算最大的相似度來匹配圖片，這個過程是不需要進行學習的。在視覺特徵上面，作者選用了顏色和紋理作爲相似度匹配的依據。
作者首先將衣服中的顏色量化爲29種顏色，然後提取了3*3的LBP紋理描述子，加上類別信息，一共是39維的向量作爲圖像相似度計算的依據。在這裏作者對29維的向量作了歸一化，具體的計算方式作者採用的是漢明距離的計算方式，作者發現膚色並不屬於商品屬性，所以他在分割中去除了膚色的信息。得到了如下的分割信息

最終的商品推薦效果如下;