用AI說再見!“辣眼睛”的買家秀

提起買家秀和賣家秀,相信大家腦中會立刻浮現出諸多畫面。同一件衣服在不同人、光線、角度下,會呈現完全不同的狀態。運營小二需從大量的買家秀中挑選出高質量的圖片。如果單純靠人工來完成,工作量過於巨大。下面,我們看看如何使用算法,從海量圖片裏找出高質量內容。

說到淘寶優質買家秀內容挖掘,必須從買家秀和賣家秀說起。我們總是能在賣家秀和買家秀中找到強烈反差,比如這樣:

image

這樣:

image

又或者這樣:

image

(圖片來自網絡)

買家秀和賣家秀對比這麼一言難盡,那還怎麼讓運營小二們愉快地玩耍?出於運營社區的需要,運營的小二們得從當前的買家秀中抽取出一批高質量的內容,作爲社區的啓動數據。

找到高質量的買家秀有那麼難嗎?就是這麼難!這不,運營的小二們碰到了以下幾個問題:

買家秀質量良莠不齊

淘寶海量的買家秀無疑都很難入得了運營小二們的法眼,以業務維度進行篩選的買家秀,審覈通過率普遍不足三成。這意味着,在海量的買家秀中,能被運營小二們看對眼的,無疑是鳳毛麟角。

審覈標準嚴苛

諮詢了運營小二,他們要求圖片視頻必須要美觀,有調性,背景不凌亂,不得擋臉,光線充足,構圖和諧,不得帶有明顯的廣告意圖,以及等等等等……

這麼多要求,難怪挑不着!

審覈工作量巨大

由於運營小二們審覈的買家秀中優質買家秀很少,不得不將大量的時間和精力花費在了審覈低質量買家秀上。

有鑑於此,用機器幫助挖掘優質內容刻不容緩。

優質內容挖掘方案

優質內容挖掘的整體方案如下:

image

全量UGC(User Generated Content)是指所有含圖或含視頻的買家秀。過審UGC是指最終審覈通過的高質量買家秀,加精UGC是指商家認可的買家秀,普通UGC則是上述兩種情況以外的其他買家秀。

我們的核心目標就是要挖掘出豐富而多樣的優質UGC。

UGC質量評估模型

運營人員在審覈買家秀時,通過綜合判斷買家秀的圖片質量和文本內容等方面的因素,來決定是否審覈通過。這促使我們直觀地將將問題轉化爲一個分類問題。

1、特徵的選擇

我們首先採用了UGC的用戶特徵、商品特徵和反饋特徵等統計特徵(詳見下表),通過GBDT模型來預估UGC的內容質量,並初步驗證了將UGC質量評估任務轉化爲分類問題是可行的。

image

2、分類問題的轉化

一個非常直觀地感受是,將審覈通過的數據標記爲1,審覈未通過的數據標記爲0,將問題轉化爲二分類問題。但在實際訓練中,我們發現,將審覈通過的數據標記爲2,將運營審覈未通過(商家已加精)的數據標記爲1,將商家未加精的數據標記爲0,把問題轉爲三分類問題比把問題轉化爲二分類問題得到了更好的效果。原因在於,審覈人員在原來的鏈路中只審覈了商家加精的數據,在此基礎上審覈通過與否;而爲數衆多的商家未加精的數據沒有審覈到,因此三分類更貼近於真實場景,因此表現更佳。

通過GBDT模型的訓練,在全量UGC數據中進行預測,挖掘出了約400萬優質UGC。自查後發現,這一批數據能挖掘出部分優質UGC,準確率在50%左右,缺點在於圖片質量往往不夠美觀(即使較爲貼近用戶的生活場景)。

3、圖片語義特徵的引入

在與業務同學的交流過程中,我們發現,業務同學需要極高質量的UGC內容,以便營造出良好的社區氛圍,讓用戶在洋蔥圈中找到對於美好生活的嚮往,其核心標準就是寧缺毋濫。在充分理解了業務同學的要求,拿到圖片數據後,對於圖片質量的評估勢在必行。

一個較爲直觀的方案就是,通過CNN模型訓練,進行圖片質量的評估。

增加圖像特徵後,通過對ImageNet預訓練的ResNet50進行fine-tuning,模型表現有了極大提升,與原有鏈路相比,審覈通過率提升了100%以上。

其中含×××姐的UGC業務同學的認可程度較高(×××姐們更樂意曬單,更樂意發買家秀,質量也更高),而針對不含×××姐的長尾類目,業務同學認爲主要存在圖片無美感和圖片不相關兩類問題。

圖片無美感的問題主要是由於,CNN更擅長捕捉圖片的語義信息,而對於美學信息不敏感。

4、美學特徵的引入

在圖片美感方面,目前有一份較爲優秀的數據集——AVA Database(A Large-Scale Databasefor Aesthetic Visual Analysis, 參見 Perronnin F ,Marchesotti L , Murray N . AVA: A large-scale database for aesthetic visualanalysis[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society, 2012.)。

AVA Database是一個美學相關的數據庫,包含25萬餘張圖片,每張圖片包含語義標註(如自然風光、天空等)、圖片風格標註(如互補色、雙色調等)和圖片美感評分(由數十到數百人評出1-10分)。

在 Zhangyang Wang, Shiyu Chang, Florin Dolcos, Diane Beck, DingLiu, and Thomas S. Huang. 2016. Brain-Inspired Deep Networks for ImageAesthetics Assessment. Michigan Law Review 52, 1 (2016) 一文中提出了Brain-inspired Deep Network,其網絡結構如下:

image

其核心思想是,通過AVA數據集提供的圖片風格標籤,學習圖片風格的隱藏層特徵,將圖片風格的隱藏層特徵和圖片經過HSV變換後的特徵結合起來,以AVA數據集提供的圖片美感分爲監督,學習圖片的美感特徵。

在此基礎上,最終在UGC質量審覈模型中採用下述結構評判UGC的質量:

image

以AVA數據集提供的圖片風格標籤和美感評分進行預訓練,通過Brain-inspiredDeep Network提取圖片的美感特徵;通過ResNet提取圖片的語義特徵;通過深度模型刻畫統計特徵;最後將三種特徵拼接起來綜合預測UGC的質量。

引入美學特徵後,驗證集上模型的準確率、召回率和F1值均得到了提升,ABTest顯示,與原有模型相比,審覈通過率提升6%以上。

髒數據處理

除了業務同學提出的問題,在自查過程中,發現目前挖掘出來的UGC內容中仍有以下髒數據:

image

1、評論傾向判定

針對差評UGC,利用現有的組件進行情感分析,發現並不能很好地挖掘出差評評論,容易誤傷。基於此,取過審UGC的評論和UGC中的差評進行訓練,在驗證集上F1值高於0.9,但由於實際預測的數據不同(忽視了中評等),導致容易誤判(如將商品名稱等判斷爲差評)。在此基礎上取過審UGC的評論、UGC好評、中評、差評分爲四檔進行訓練,在驗證集上F1值稍低,但由於訓練數據更貼近於真實場景,在實際預測中效果更好;目前基本解決了差評UGC的問題,實際自查過程中,沒有再看見差評UGC。

在實際的模型選擇上,Attn-BiLSTM(帶attention的雙向LSTM)效果好於TextCNN(F1score約相差3%),分析原因在於:TextCNN的優勢主要在於捕捉局部特徵,而很多文本雖然含有吐槽性段落(如批評物流慢等),但整體仍然是對賣家商品的肯定。

2、N-Gram過濾

針對套路評價UGC,通過全局比較UGC的文本內容,將被多名用戶重複使用的模板UGC過濾掉。

針對重複評價UGC,通過判斷UGC文本內容中重複的2-gram、3-gram、4-gram,結合文本長度和文本信息熵進行過濾。

3、OCR及圖像Hash過濾

針對牛皮蘚圖片,一部分採用了OCR識別和牛皮蘚識別進行過濾。

針對盜圖、網圖UGC,將圖片表示爲哈希值,通過全局判斷哈希值在不同買家、不同賣家間的重複次數,進行過濾。在過濾此項的過程中,我們也發現,買家秀中盜圖、網絡圖的現象較爲普遍,很多肉眼看似原創的內容也涉及盜圖和網圖;此項過濾掉了大多數的UGC。

無關圖識別

解決了上述問題後,仍然較爲顯著的問題是無關圖的問題。

無關圖的出現原因較爲複雜,表現類型也非常多樣;既有上述提到的盜圖和網絡圖,也有用戶隨手拍的風景圖,還包括動漫截圖等各式各樣和商品無關的圖片。

一方面,無關圖以盜圖、表情包、網絡圖等爲主,通過哈希值過濾,能夠過濾掉一批無關圖;另一方面,即使過濾以後,預估仍然存在10%-15%左右的無關圖。這部分無關圖的解決較爲複雜。

目前所採用的方案是,將盜圖、表情包、網絡圖等重複圖片作爲負樣本,將過審UGC圖片作爲正樣本,通過ResNet提取圖片特徵,將類目通過embedding作爲類目特徵,將用戶行爲(發表重複圖的數量和比例)作爲用戶特徵,判斷該UGC的圖片是否是無關圖。

就這樣,大家終於又能愉快地欣賞美美的買家秀了~~

劃重點

在此分享一些心得體會,希望能對大家有幫助:

數據強於特徵,特徵強於模型;貼近真實場景的數據對提升任務表現貢獻巨大;

如果確實缺乏數據,不妨嘗試快速標註數千條數據,可能取得超出預期的效果;

對ImageNet等數據集預訓練的模型進行fine-tuning可以在小數據集往往能取得更好的問題;

通過圖像翻轉、旋轉、隨機裁剪等方法進行數據增強,可以提升模型泛化能力。

原文發佈時間爲:2019-02-21
本文作者:曉鴻

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章