Take Goods from Shelves A Dataset for Class-Incremental 翻譯

摘要

在自助售貨機中實現自動可視化結賬的目標檢測在零售業中引起了廣泛的關注。 然而,一些關鍵性的挑戰還沒有得到足夠的重視。 首先,迫切需要大規模、高質量的零售圖像數據集來訓練和評估檢測模型。 其次,訓練有素的模型應該能夠以較低的成本應對頻繁增加的新產品,而大多數前沿模型則不能。 本文提出了一種新的分層的大規模目標檢測數據集——貨架取貨(TGFS),包含24個細粒度和3個粗類的38K圖像。 提出了一種快速的R-CNN類增量目標檢測器(FCIOD),並對其進行了評價。 此外,還對TGFS數據集上的幾種常用方法進行了基準測試

提供了一個數據集,提出了一種類增量學習方法

1 INTRODUCTION

隨着卷積神經網絡(convolutional neural networks, CNNs)[10,12,15,28]的發展,基於cnn的目標檢測模型[5,6,21,22,24]在速度和精度上都有了很大的突破。這些模式在工業上得到了廣泛的應用,例如自助販賣機的自動結賬系統,它可以自動檢測併爲顧客購買的商品收費,每天創造巨大的價值。然而,這一領域還存在一些挑戰,並沒有得到足夠的重視

第一個挑戰來自數據集。 一方面,零售業的商品通常是分層結構的,同一品牌的商品在視覺上總是相似的。 因此,需要分層的從粗到細的數據集。 “粗”的標籤應該是概念(如飲料、零食等)或品牌,而“細”的標籤應該是具體的產品,也就是說。庫存管理單元(SKU)。 另一方面,數據集應該反映由於握在手中的遮擋和形狀變化。 最後但並非最不重要的是,圖像和對象的數量應該很大,因爲基於cnn的方法通常需要大量的訓練數據。

另一個挑戰來自於對象檢測模型。 最先進的模型只能在固定的類設置下工作,即: 預先定義和固定類的數據集用於訓練模型。 因此,模型可以在訓練後檢測這些類的對象。 然而,需求在實際情況中變化很快。 通常情況下,不能總是提前完全獲得類。 一個典型的情況是自助販賣機經常會根據市場趨勢添加新的商品,所以機器中自動結賬系統的檢測模型應該以較低的成本適應這種變化。 因此,更重要的是對象檢測的類增量設置,即檢測類可以隨着時間的推移不斷地添加到模型中,而不需要對所有累積的數據進行完全的再培訓。

綜上所述,爲了解決零售業面臨的挑戰,本文主要做了三個方面的工作

(1)從自助販賣機採集的貨架取貨(TGFS)數據集,包含三個粗類、24個細粒度類、38K張高質量圖像,呈現給社會,促進類增量對象檢測和計算機視覺的發展;

(2)在知識蒸餾的啓發下,提出了一種快速R-CNN類增量目標檢測器(FCIOD)的初步模型來解決類增量目標檢測問題;

(3)利用TGFS數據集對海量的策略和方法進行基準測試

數據集和代碼將很快公開。

2 RELATED WORKS

2.1 Object Detection Dataset

數據集在深度學習中起着至關重要的作用,大量的數據集被提出用於各種任務。在常用的視覺類別對象檢測任務中,Pascal VOC[3]數據集和Microsoft COCO[18]數據集是應用最廣泛的兩個數據集。對於特定的應用領域,如零售業,也有特定於字段的數據集

GroceryDataset

ydataset[31]是一家專注於菸草品牌的零售產品認知數據集。這個數據集包括超市貨架上的354張圖片,10個品牌菸草上的13000種裁剪產品。然而,354幅圖像嚴重不足訓練一個基於cnn的目標檢測模型

弗萊堡雜貨數據集

它包括25個食品類的5021張圖片,每個類97到370張。各種雜波程度和光照條件的圖像使數據集變得困難。訓練集中的圖像具有同一個類的一個或多個實例,測試集中的圖像包含多個類的對象。但是,這個數據集只提供圖像級的註釋,這使得它不適合訓練檢測模型。

MVTecD2SDataset

它包含21,000張高分辨率圖像,帶有邊界框和實例掩碼的註釋。這些物品包括60個類別的雜貨和日常用品。訓練集中的圖像只包含同構背景上單個類的對象,而驗證和測試集中的圖像則包含多個類的對象。

Small Hand-held Object Recognition Test (SHORT)

它包含30個食品雜貨類,1080個培訓和134,524個測試圖像。培訓集是高質量的,從產品手冊、廣告、3D產品視圖中收集。測試集的質量並不穩定,因爲圖像是從手持手機上採集的,視角不同,清晰度不同,背景雜波不同,遮擋不同,光照不同,鏡面反射不同。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-UlMR6pkb-1583547419928)(7EE20653187C4D44AE7365A703008935)]

我們的Take Goods from shelf (TGFS)數據集包含24個細粒度類的38K高分辨率圖像,分爲三個粗粒度類。從真實的意義上捕獲的圖像具有高質量,帶有邊框註釋。 圖2將TGFS數據集與零售業現有數據集進行了比較

2.2 CNN-Based Object Detection Methods

近年來,基於目標檢測的方法主要分爲兩級和單級。一般來說,兩階段法的精度較高,而單階段法的速度較快。

The two-stage methods.

這些方法(如R-CNN[6]、fast R-CNN[24]和Mask R-CNN[8])通常由兩個可分離的階段組成。 第一階段的目標是使用區域建議方法,如選擇性搜索[30]、EdgeBox[32]和RPN[24]生成對象邊界框建議。 在第二階段,用類標籤分配提案,並對提案的邊界框座標進行迴歸。 這兩階段的方法是準確的,並採取了許多挑戰數據集的領導者董事會,如帕斯卡VOC和微軟可可。 由於這兩個階段是可分的、靈活的,提出了對每個階段進行優化的各種改進方法[1,17],並在此基礎上設計了許多其他的目標檢測方法[17,29]

The single-stage methods.

這些方法將這兩個階段集成到一個統一的輕量級過程中。 YOLO[21]方法使用一個前向卷積網絡直接預測邊界框和對象類,速度快但精度不高。 通過YOLO v2[22]和YOLO v3[23]的改進,利用多尺度訓練方法和特徵圖提高了小對象的性能,同時利用更高效率的骨幹網加快了速度。 SSD[19]方法在不同的特徵映射中生成不同縱橫比的錨,迫使每一層學習檢測特定尺度的對象。 根據SSD的體系結構,DSOD[26]方法是一種高效、易於從零開始訓練的方法。 爲了提高檢測模型的精度,提出了各種預處理方法、損失函數和體系結構。

上面的這些方法必須處理預先定義和固定類的數據集,而我們試圖處理類隨時間增長的情況,這在現實世界中很常見,尤其是在零售業中。

2.3 Class-incremental Learning

類增量學習是一種終身學習,目的是在訓練有素的模型中不斷增加新的識別類,而不是完全依靠所有“舊”的訓練數據進行再訓練。 更新後的模型應該在舊類和新類上都能很好地工作。然而,“災難性遺忘”現象(災難性遺忘是指網絡在學習新信息時完全忘記之前所學的內容)是課堂增量學習中最大的挑戰。

在分類方面,Li和Hoiem[16]對新增加的類採用交叉熵損失,對舊類採用知識蒸餾損失,在一定程度上克服了遺忘問題。 回絕等。[20]採用了一個基於原型的分類器和一個樣本集。樣本集中的數據是“舊的”訓練圖像,最接近類原型,在每個類增量過程之後重建類原型。 他們還引入了一個範例管理策略來保持子集的大小和質量

最近,Shmelkov等人。[27]提出了一種基於快速R-CNN的類增量目標檢測方法。 利用模型的凍結副本選擇與舊類對應的提案,對模型的分類和迴歸部分進行知識蒸餾,指導學習過程,防止舊類出現遺忘現象。

從貨架上取貨數據集

基於零售業的實際情況,提出了貨架取貨(TGFS)數據集。 它記錄了人們從自助販賣機的貨架上取貨的過程。這個數據集中有38,027張圖像,屬於24個細粒度類,分爲三個粗粒度類。我們希望這個數據集能夠促進類增量對象檢測、自助販賣機以及零售業的研究。

3.1 Dataset Construction
圖像採集硬件。

圖3展示了圖像採集硬件。 在無人超市的自助販賣機的左右兩側,每層貨架之間都安裝了多個魚眼攝像頭。 固定焦距魚眼相機的空間分辨率爲480×640像素,垂直視野爲120°。 然後調整相機的白平衡、靈敏度、變形校正等參數,使相機在大多數情況下都能獲得清晰的照片。 爲了防止相機表面起霧,鏡頭上還採用了特殊的塗層,控制機器溫度。 預裝在機器上的LED燈作爲光源

架子上的貨物。

我們調查了大學校園的自助售貨機,選擇了11種常見的飲料和12種最暢銷的零食。貨物的名稱列在表1中。這些飲料有九個品牌,都是瓶裝的。這些屬於7個品牌的零食,用塑料袋(如餅乾)、盒子(如巧克力棒)和瓶子(如方便麪)包裝。貨物被放在貨架的不同樓層。相同或相似類別的多個商品放在一起,就像超市的貨架一樣。

取貨過程。

志願者被邀請從貨架上取下商品。人們可以用任何他們想要的方式,一次從貨架上只拿出一件商品。例如,對於瓶裝商品,可以用手矇住品牌,或者將瓶子水平拿着,這樣相機只能看到底部。至於袋裝貨物,很有可能會引起各種變形,或擠壓包裝的質量,或損壞袋口。志願者不需要刻意控制取貨速度,所以整個取貨過程通常非常快,平均只有1-2秒。由於我們在購物時經常猶豫不決,所以不允許從貨架上取下任何東西,也不允許來回擺放。魚眼攝像機以每秒25幀的速度將貨物的運送過程拍攝成視頻

後處理。

視頻被轉換成幀。由於快速移動而嚴重模糊的幀被手動過濾掉。爲了使其更具挑戰性,我們還保留了只包含純手的圖像,因此檢測模型應該區分“純手”和“手中物品”。使用LabelImg 1,數據集中的每個對象都用包圍框手動標記。然後按3:2的比例隨機分割訓練和測試部分。爲了便於使用,數據集按照著名的Pascal VOC數據集的結構組織

統計數據

該數據集共包含38,027幅圖像,分爲24個精細類、3個粗類。每個精細類平均有1584個圖像,而每個圖像只包含一個對象。訓練集有22,815張,測試集有15,212張。類名和類中的圖像數量列在表1中,並在圖4中顯示。從統計學上看,該數據集的分佈是相對均衡的。每個類的示例如圖1所示。

獨特性

首先,在實際的業務場景中,層次細粒度標籤,尤其是品牌和規範信息是必不可少的。現有的公共數據集沒有這樣的信息來促進這項任務的研究。‘

其次,取貨過程中不可避免地會造成物品嚴重遮擋。這種遮擋本質上使得零售業的目標檢測任務更具挑戰性,因爲嚴重的遮擋會使目標檢測模型在實際場景中失效。此外,即使這些對象被部分阻塞,也很難識別它們。在以前的數據集中,沒有那麼多具有嚴重遮擋的圖像。爲此,我們將手動阻塞的圖像和手動類添加到數據集中,這增加了難度。在圖1中,我們可以看到貨物總是被手阻塞。

最後但並非最不重要的是,這個數據集的難度適中,因爲每個圖像中只有一個對象,而且圖像的質量是穩定的。它是一個適用於自助販賣機場景中對象檢測問題的基準數據集。

3.2 Applications

我們的TGFS數據集可用於開發各種應用程序,例如自助售貨機中的自動充電系統。具體來說,自助超市的可視化自動計費系統屬於對象檢測,屬於某種特殊的、細粒度的對象檢測問題,具有實用性、現實性和挑戰性,具有較高的商業價值。該數據集還可以作爲對象檢測算法的基準數據集。

4 CLASS-INCREMENTAL OBJECT DETECTOR

在零售業中,商店和市場應該經常根據市場趨勢添加新的商品,比如自助販賣機。自助販賣機的目標檢測模型應具有高效處理商品添加的能力。 例如,經過良好訓練的對象檢測模型是由一些新類的圖像來更新的,而更新的模型不僅要檢測新類的對象,還要檢測舊類的對象。類增量對象檢測問題研究較少,有許多潛在的解決方案。針對類增量目標檢測問題,提出了一種快速的R-CNN類增量目標檢測器(FCIOD)

如圖5所示,我們採用更快的R-CNN作爲基本模型,在不丟失舊類知識的前提下,通過多次修改來擴展其檢測能力。 傳統的FasterR-CNN有三個獨立的模塊 .主幹特徵提取器生成輸入圖像的特徵映射。 區域建議網絡(RPN)分支使用特徵圖提出候選對象邊界框。 快速R-CNN (FRCN)分支對box提案進行分類並調整它們的座標。 更快的R-CNN的損失函數可以寫成

L=Lcls+Lreg\mathcal{L}=\mathcal{L}_{\mathrm{cls}}+\mathcal{L}_{\mathrm{reg}}

其中L_cls和L_reg分別是分類和迴歸的一部分。 在本工作中,分類部分在進行類增量訓練時進行修改,迴歸部分保持原樣。 我們在FRCN分支上應用了知識蒸餾,並引入了一個圖像級的範例管理策略,以防止在執行類增量學習時遺忘

4.1 Knowledge Distillation Structure

知識蒸餾[11]是爲在不同體系結構的網絡之間傳輸知識而設計的。近年來,它也被用於類增量分類問題中[14,16],以防止災難性遺忘現象。因此,與[7]類似,將這種結構引入到我們的模型中,以確保分類器能夠在學習新概念的同時保持舊類的性能

整個模型的一個凍結副本被創建爲教師模型,而未凍結的副本被視爲學生。將student FRCN中分類器的輸出節點擴展到已經看到的類的數量,並隨機初始化新添加節點的權重

將相同的圖像x輸入到教師和學生模型中,分別生成類預測P_t(·)和P_s(·)的檢測結果。值得注意的是,P_st(·)表示學生對老類部分的預測

爲了使模型學習新的概念,利用傳統的交叉熵損失L _trad對學生模型進行優化。 然後,爲了防止老類遺忘,採用P t作爲教師模型的附加指導,以知識蒸餾損失L _dstl的形式幫助學生的學習過程。 分類部分的損失函數可表示爲:

Lcls=Ltrad(Ps(x),ygt)+γLdst1(Pt(x),Pst(x))\mathcal{L}_{\mathrm{cls}}=\mathcal{L}_{\mathrm{trad}}\left(P_{\mathrm{s}}(\mathbf{x}), y_{\mathrm{gt}}\right)+\gamma \mathcal{L}_{\mathrm{dst} 1}\left(P_{\mathrm{t}}(\mathbf{x}), P_{\mathrm{st}}(\mathbf{x})\right)

其中y_gt爲提案框的分類依據真值; γ是hyperparameter控制力量的監督老師,並設置爲2。具體來說,L_dstl可以寫成:

Ldst1(Pt(x),Pst(x))=H(softmax(Pt(x)T),softmax(Pst(x)T))\mathcal{L}_{\mathrm{dst} 1}\left(P_{\mathrm{t}}(\mathbf{x}), P_{\mathrm{st}}(\mathbf{x})\right)= \\ H\left(\operatorname{sof} \operatorname{tmax}\left(\frac{P_{\mathrm{t}}(\mathrm{x})}{T}\right), \operatorname{sof} \operatorname{tmax}\left(\frac{P_{\mathrm{st}}(\mathrm{x})}{T}\right)\right)

其中T爲光滑超參數,稱爲溫度,通過實驗設置T = 2。選取Kullback-Leibler散度損失H(·)對式(3)進行優化

4.2範例集管理

爲了解決類增量目標檢測問題,傳統的方法傾向於用所有累積的訓練數據對模型進行再訓練,雖然費時,但性能良好,爲了解決類增量對象檢測問題,傳統的方法傾向於用所有累積的訓練數據對模型進行再訓練,雖然費時,但效果良好,因爲所有類的數據都是足夠的,不會出現遺忘現象。 爲了平衡性能和速度,我們限制了在類增量訓練過程中可以訪問的先前數據的數量。 因此,我們的模型中引入了一個範例集,並執行了一個映像級的範例管理策略。 範例集有一個固定的大小K,這意味着模型最多可以訪問之前訓練數據的K個圖像

經過一定的訓練,該模型可以檢測出C_o類的對象。我們審覈培訓數據和記錄

Pf(x)=fL1(x)fL1(x)P_{\mathrm{f}}(\mathbf{x})=\frac{\mathbf{f}_{\mathrm{L}-1}(\mathbf{x})}{\left\|\mathbf{f}_{\mathrm{L}}-1(\mathbf{x})\right\|}
式中,x爲輸入圖像,f_L−1(·)爲學生FRCN分類器前一層的特徵。 爲每個類y = 1,…, C_o,然後使類的原型µy y:

μyPf(x)y^=ygt=yy^=ygt=y\mu_{y} \leftarrow \frac{\sum P_{f}(\mathbf{x}) | \hat{y}=y_{g t}=y}{\left\|\hat{y}=y_{g t}=y\right\|}

ˆy和y_gt的類真實預測和建議,分別。 類的所有對象y是採取和排序根據他們的特徵距離µ_y從小型到大型的原型。 最後,我們遍歷對象並將整個對應的圖像一個一個地放到範例集中,直到我們得到類y的k_o = K/C_o惟一圖像,或者考慮所有對象。這個過程在算法1中指定。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-CNCoHWsx-1583547419930)(E33AFA035CF64EB3B77BB6E1B7B042C5)]

這段怎麼選擇exemplar的沒看懂。大概的意思是按照距離選擇。

在下一個訓練階段,類的數量將從C_o增加到C_n。 該模型由一個混合數據集訓練,該數據集將新類的數據與範例集結合起來.訓練結束後,我們從混合訓練數據集中爲每個類最多選擇k n = k /C n個圖像,重新計算所看到的所有類的類原型,清空並重新構建樣本集。

The Protocol of Our Problem

根據Haoetal .[7]提出的設置,我們採用以下數據集轉換、模型訓練和模型評估協議對類增量設置下的模型進行基準測試。

Dataset Preparing.

數據集做準備。

很難創建一個能夠隨着時間推移而增加類定義和數據的數據集。 此外,由於不同數據集之間的偏差和類間的交集,我們不能爲每個類增量訓練會話使用完全獨立的新數據集。 但是,將現有的標準對象檢測數據集轉換爲類增量數據集是很方便的。轉換步驟主要包括:

(1)將類分成組。 將標準對象檢測數據集的C類劃分爲N組。 每組由c i類組成;

(2)爲每組選擇圖像。 爲每個組選擇整個數據集的所有符合條件的圖像。 這些圖像需要保證只包含屬於相應組的對象。 具有多組對象的圖像將被省略;

(3)每組劃分培訓與評估部分。 來自數據集訓練部分的圖像構成了組的訓練部分,測試部分也是如此。

這個數據集準備過程如圖6所示。 它確保不同組中的圖像包含完全不同類的對象,因此我們可以輕鬆地選擇任意一個未使用的組來執行類增量訓練

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-bFAraFCK-1583547419931)(9F043E5D9AD0478F93CD2C864B3E58F7)]

圖6:數據集轉換過程的演示。我們將類分成組,並從每個組的相應部分中選擇所有符合條件的圖像。

Training.

目標檢測模型的訓練應採用逐段遞增的方法,使用對應組訓練段的數據進行訓練。 在第一個訓練階段,利用第一組的訓練數據對模型進行訓練,該模型的主幹由預先訓練好的ImageNet權值初始化。 對於下面的會話,將加載上一個會話生成的經過良好訓練的模型。 然後,增加模型的輸出節點,並通過對應組的數據對模型進行更新。 在每個會話之後,模型可以學習檢測新組對象的能力。

Evaluating.

爲了全面評估模型的性能,需要同時獲取所看到的所有類的性能,因此應該使用包含所看到的所有類的對象的混合數據集來評估模型。 我們將之前所有組的測試部分混合在一起,並用這種混合對模型進行評估。 因此,舊類的性能可以直接與最後一個組的性能進行比較

Evaluation metrics.

通過評估,計算出每個類在union (IoU)上0.5相交處的平均精度(AP),這是反映模型性能的一個較低的指標。 我們還可以通過對我們所見過的所有類的平均APs求平均平均精度(mAP),這是一個高級指標。 一箇中等水平的指標,每組的平均精度(也稱爲分組地圖,gmAP),也可以計算出來

5 EXPERIMENTS AND ANALYSIS

5.1 Experimental Setup

我們在TGFS數據集上執行基準測試。 採用表1中的類順序,將24個類平均分爲4組。利用第4.3節提出的圖像選擇策略,對每組圖像進行選擇。經過選擇,每組約有5700張訓練圖像和3800張測試圖像。然後我們對以下方法進行基準測試

FCIOD是本文提出的一種方法,因爲該模型可以在增量訓練過程中訪問有限數量的訓練數據。 選擇Resnet101[9]作爲骨幹特徵提取器,根據[11]中的建議,利用Kullback-Leibler散度損失對方程3進行優化。 該模型在每個會話中由十個epoch進行訓練。 在訓練過程中,樣本集的大小固定爲200,初始學習率爲0.001,每隔4個時點逐漸降低0.2。 爲了平衡GPU內存和速度,在4臺Nvidia GTX 1080 Ti GPU上平均放置12張圖像,在進行類增量訓練時需要10gb GPU內存。

ILWCF[27]是一種支持類增量訓練的最先進的對象檢測方法。 該方法適用於在類增量訓練過程中,模型不能訪問任何以前的訓練數據的情況。 該方法以邊緣框[32]生成邊界框建議,利用快速R-CNN對建議進行分類,並對座標進行迴歸。 在進行課堂漸進訓練時,採用知識蒸餾機制,防止老課的災難性遺忘。 我們使用了作者發佈的代碼,並採用了他們論文中建議的相同參數。 該模型爲每個訓練會話進行20K次迭代訓練。 第一個階段的初始學習率設置爲0.01,下一個階段的初始學習率設置爲0.001,當達到訓練過程的80%時,初始學習率降低0.1。

我們還對傳統的策略和方法進行了基準測試。 類增量(CI)策略是指在執行類增量訓練時,擴展模型的輸出節點,只使用新類的數據對模型進行訓練。 再培訓策略是傳統的培訓策略。 增加模型的輸出節點後,將之前的所有訓練數據進行合併,形成混合訓練數據集。 利用混合數據集對在ImageNet[2]上預先訓練的權值重新初始化後的模型進行訓練。 我們將這兩種策略應用到YOLO v2和更快的R-CNN中,形成以下四種方法:

YOLOv2是YOLOv2與類增量策略的結合。使用Darknet19[22]作爲骨幹。每組訓練350個epoch,批大小爲64。開始時將學習率設置爲0.001,每150個時代衰減0.1個。其他參數與[22]相同。

frrcn - ci將更快的R-CNN與類增量策略相結合。採用ResNet101作爲特徵提取器。該模型在每個列車會話中訓練10個時點。初始學習率設置爲0.001,曆元8衰減0.1。我們保持所有其他設置和參數與建議在[24]相同

YOLO- rt將YOLO v2與再培訓策略集成在一起。其他參數與yolol - ci策略相同

frrcn - rt是快速R-CNN與再培訓策略的結合。其他參數與FRCN-CI策略相同

模型按4.3節中的訓練協議進行分組訓練,結果如表2所示,具體結果如表3所示。 每個模型的四行描述了每個訓練階段之後的性能。 首先利用A組數據對模型進行訓練。 然後通過B組數據對訓練良好的模型進行更新,使其能夠同時識別A組和B組對象。 在接下來的兩次會話中,模型分別由C組和D組進行更新,兩次會話後分別檢測A組到C組和A組到D組的對象

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-fWo4ovmu-1583547419932)(7723289D6ADA4B899835D8F72438449E)]

5.2 Experimental Results
Performance.

研究結果分爲四類: 1)下界,包括YOLO-CI和FRCN-CI,僅利用新類數據,對遺忘現象無任何防範; 2)嚴格的基線,特別是ILWCF,在執行類增量訓練時,不需要任何以前的數據,引入各種機制來防止遺忘; 3)放鬆基線,尤其是FCIOD,在有限數量的“舊”累積訓練數據的輔助下,對遺忘現象實施策略; 4)上界,包括yolol - rt和FRCN-RT,全部通過累積的數據對模型進行再訓練。研究結果分爲四類: 1)下界,包括YOLO-CI和FRCN-CI,僅利用新類數據,對遺忘現象無任何防範; 2)嚴格的基線,特別是ILWCF,在執行類增量訓練時,不需要任何以前的數據,引入各種機制來防止遺忘; 3)放鬆基線,尤其是FCIOD,在有限數量的“舊”累積訓練數據的輔助下,對遺忘現象實施策略; 4)上界,包括yolol - rt和FRCN-RT,全部通過累積的數據對模型進行再訓練。

下界。 該策略的模型在新組上有較好的性能,而在舊組上性能下降較快。 例如YOLO-CI在a組得到92.4%的gmAP,然後用B組數據更新模型。 更新後,模型得到B組的gmAP爲88.2%,但是忘記了a組的知識,因爲a組的gmAP下降到了7.7%。 這說明該模型面臨災難性遺忘,沒有任何機制可以預防。 在其他羣體中也可以看到類似的現象。

嚴格的基線。知識蒸餾機制雖然缺乏老班的訓練數據,但在一定程度上防止了老班的遺忘現象。

放鬆的基線。 與之前的模型無法訪問任何以前的訓練數據相比,這種策略更加寬鬆。 範例管理機制可以找出對邊界框建議分類最有價值的例子,這些例子可以在一定程度上幫助模型克服遺忘現象。 但是,FCIOD是一種比較初步的方法,只考慮FRCN分支中的分類器,遺忘現象仍然明顯。

上限。

它是所有四種策略中最寬鬆的策略,也是前一種策略的一個特例:範例集的大小是無限的。結果表明,由於所有類的圖像都是充分的,因此該策略不會發生遺忘。

Trainingtime。

假設每個組有大致相同的一堆示例,因此孤立地訓練每個組的時間大致相等。對於每一組,我們將正向時間表示爲tf,反向時間表示爲tb

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Q2s3cDGC-1583547419932)(94D7C338920D4119B859CFAF03918A6E)]

6 CONCLUSIONS

本文旨在解決來自零售業的計算機視覺挑戰。 爲了促進本課題的研究,我們引入了一個來自真實自助販賣機的海量取貨(TGFS)數據集。 爲了使目標檢測模型能夠解決商品添加問題,我們回顧了類增量目標檢測設置,並介紹了一種閾前模型,即更快的R-CNN類增量目標檢測器(FCIOD)。 我們在TGFS數據集中對幾種策略和方法進行了基準測試,爲這個問題建立了一個基線

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章