yolo 9000論文翻譯

YOLO9000

Better, Faster, Stronger

摘要

  我們介紹YOLO9000,一個最先進的,實時目標檢測系統,可以檢測超過9000個目標類別。首先,我們提出對YOLO檢測方法的各種改進方法,包括新穎的和從以前的工作中得出的。改進的模型,YOLOv2,是標準檢測任務,如PASCAL VOCCOCO的最先進的。使用一種新穎的多尺度訓練方法,相同的YOLOv2模型可以運行在不同的大小的圖片上,提供速度和精度之間的輕鬆權衡。在67 FPS時,YOLOv2VOC 2007上獲得76.8 mAP。在40 FPS時,YOLOv2獲得78.6 mAP,性能優於最先進的方法,例如使用ResNetfaster RCNNSSD,同時運行速度明顯更快。最後,我們提出了一種聯合訓練目標檢測和分類的方法。使用這種方法,我們在COCO檢測數據集和ImageNet分類數據集上同時訓練YOLO9000。我們的聯合訓練方法允許YOLO9000預測沒有標記檢測數據的目標類的檢測。我們在ImageNet檢測數據集上驗證我們的方法。YOLO9000ImageNet檢測驗證集上獲得19.7 mAP,儘管只有200個類中的44個檢測數據。在不在COCO156類中,YOLO9000獲得16.0 mAP。但是YOLO可以檢測超過200個類;它預測超過9000個不同目標類別的檢測。它仍然實時運行。

1、引言

  通用目標檢測應該快速,準確,並且能夠識別各種各樣的目標。自從引入神經網絡以來,檢測框架已經變得越來越快速和準確。然而,大多數檢測方法仍然侷限於一小組目標。

  與分類和標記等其他任務的數據集相比,當前目標檢測數據集是有限的。最常見的檢測數據集包含數十到數十萬的圖像,具有幾十到幾百個標籤[3] [10] [2]。分類數據集具有數百萬個具有數十或數十萬類別的圖像。

  我們希望檢測可以縮放到目標分類的級別。然而,用於檢測的標記圖像比用於分類或標記的標記(標籤通常由用戶免費提供)昂貴得多。因此,我們不太可能在不久的將來看到與分類數據集相同規模的檢測數據集。

  我們提出了一種新方法來利用我們已經擁有的大量分類數據,並使用它來擴大當前檢測系統的範圍。我們的方法使用目標分類的層次視圖,允許我們將不同的數據集合在一起。

  我們還提出了聯合訓練算法,允許我們在檢測和分類數據上訓練目標檢測器。我們的方法利用標記的檢測圖像來學習精確地定位目標,同時使用分類圖像來增加其詞彙和魯棒性。

  使用這種方法,我們訓練YOLO9000,一個實時目標檢測器,可以檢測超過9000不同的目標類別。首先,我們改進基本的YOLO檢測系統,以產生YOLOv2,一個最先進的,實時檢測器。然後我們使用我們的數據集組合方法和聯合訓練算法來訓練來自ImageNet的超過9000個類的模型以及來自COCO的檢測數據。

  我們的所有代碼和預訓練模型都可以在http://pjreddie.com/yolo9000/在線獲得。

2、更好

  相對於現有技術的檢測系統,YOLO具有各種缺點。與fast RCNN相比,YOLO的誤差分析顯示YOLO產生大量的定位誤差。此外,與基於候選區域的方法相比,YOLO具有相對較低的召回率率。因此,我們主要集中在改進召回率和定位,同時保持分類精度。

  計算機視覺通常趨向於更大,更深的網絡[6] [18] [17]。更好的性能通常取決於訓練更大的網絡或將多個模型組合在一起。然而,使用YOLOv2,我們需要一個更加精確的檢測器使得它仍然很快。我們不是擴展我們的網絡,而是簡化網絡,使表示更容易學習。我們從過去的工作中融合了我們自己的新概念的各種想法,以提高YOLO的性能。結果總結可以在表2中找到。

  批量標準化。批量歸一化導致收斂的顯着改善,而不需要其他形式的正則化[7]。通過在YOLO中的所有卷積層上添加批量歸一化,我們在mAP中獲得超過2%的改進效果。批量規範化也有助於規範模型。使用批次標準化,我們可以從模型中dropout,而不會過度擬合。

  高分辨率分類器。所有最先進的檢測方法使用ImageNet預訓練分類器[16]。從AlexNet開始,大多數分類器對小於256×256的輸入圖像進行操作[8]。原來的YOLO224×224分辨率上訓練分類器網絡,並將分辨率增加到448以用於檢測。這意味着網絡必須同時切換到學習目標檢測並調整到新的輸入分辨率。

  對於YOLOv2,我們首先在分辨率爲448×448的分辨率下對ImageNet上的10epoch進行微調。這種網絡時間可以在較高分辨率輸入上調整濾波器。然後我們在檢測時微調所得到的網絡。這種高分辨率分類網絡使我們增加了近4%的mAP

  使用anchor box進行卷積。YOLO直接使用卷積特徵提取器頂部的完全連接的層來預測邊界框的座標。相比於直接預測座標,faster RCNN使用手動挑選的先驗預測邊界框[15]來預測左邊。僅使用卷積層,faster RCNN中的區域建議網絡(RPN)預測anchor box的偏移和置信度。由於預測層是卷積的,因此RPN在特徵圖中的每個位置處預測這些偏移。預測偏移而不是預測座標簡化了問題,並使網絡更容易學習。

  我們從YOLO中刪除全連接層,並使用anchor box預測邊界框。首先,我們消除一個池化層,使網絡的卷積層的輸出更高的分辨率。我們還縮小網絡將輸入尺寸爲416而不是448×448。我們這樣做是因爲我們想要特徵圖中大小爲奇數,所以有一箇中心單元格。目標,特別是大目標,傾向於佔據圖像的中心,所以在中心有一個單一的位置是很好的預測這些目標,而不是四個位置都在中心附近。YOLO的卷積層將圖像下采樣32倍,所以通過使用輸入圖像416,我們得到13×13的輸出特徵圖。

  當我們移動到anchor box時,我們也將類預測機制與空間位置解耦,而代之以預測每個anchor box的類和目標。在YOLO之後,目標預測在假設有一個目前提下仍然預測ground truthIOU和提出的框和類預測預測該類的條件概率。

  使用anchor box我們得到一個小的精度下降.YOLO每個圖像只預測98box,但使用anchor box我們的模型預測超過一千個box。沒有anchor box,我們的中間模型獲得69.5 mAP,召回率爲81%。使用anchor box我們的模型獲得69.2 mAP,召回率爲88%,mAP少量減少,召回率的增加意味着我們的模型有更多的改進空間。

  維度集羣。當使用YOLO時,我們遇到兩個關於anchor box的問題。第一個是box尺寸是手工挑選的。網絡可以學習適當地調整框,但如果我們選擇更好的先驗網絡開始,我們可以使網絡更容易學習預測良好的檢測。

  我們不是手動選擇先驗,而是在訓練集邊界框上運行k-means聚類,以自動找到好的先驗。如果我們使用標準的k均值與歐幾里德距離較大box會產生比較小的box更多的誤差。然而,我們真正想要的是先進的,導致良好的IOU分數,這是獨立的box的大小。因此,對於我們的距離,我們使用下面的公式:

d(box,centroid)=1-IOU(box,centroid)

 我們對k的不同值運行k-means,並繪製具有最接近質心的平均IOU,參見圖2.我們選擇k = 5作爲模型複雜性和高召回率之間的良好權衡。聚類中心與手工挑選的anchor box有很大不同。有更少的短的寬box和更多的高的窄的box。

圖2VOCCOCO的聚類框尺寸。我們在邊界框的維度上運行k均值聚類以獲得我們的模型的先驗。左圖顯示了對於k的各種選擇得到的平均IOU。我們發現k = 5給出了召回率和模型複雜性的良好權衡。右圖顯示了VOCCOCO的相對質心。兩種方法都有利於更薄,更高的盒子,而COCO在尺寸上比VOC有更大的變化。

我們將平均IOU與我們的聚類策略和表1中的精選anchor box進行比較。只有5個先驗的質心類似於9個anchor box,平均IOU爲61.0,而9個anchor box爲60.9。如果我們使用9個質心,我們看到一個高得多的平均IOU。這表明使用k-means生成邊界框以更好的表示開始模型,並使任務更容易學習。

表1VOC 2007上最接近的先驗的平均IOUVOC 2007上目標的平均IOU,與使用不同生成方法的其最接近的未修改先驗。聚類提供比使用手挑選的先驗更好的結果。

直接位置預測。當YOLO使用anchor box時我們遇到第二個問題:模型不穩定,特別是在早期迭代時。大多數不穩定性來自預測box的(x,y)位置。在候選區域網絡中,網絡預測值tx和ty和x,y)中心座標計算爲:

x=(tx*wa)-xa,y=(ty*ha)-ya

 例如,tx= 1的預測將使框向右移動anchor box的寬度, tx= -1的預測將使其向左移動相同的量。

  這種公式是不受約束的,因此任何anchor box可以在圖像中的任何點結束,而不管預測box的位置。使用隨機初始化模型需要很長時間才能穩定到預測可感知的偏移。

  相比於預測偏移,我們遵循YOLO的方法並預測相對於網格單元的位置的位置座標。這將ground truth限制在01之間。我們使用邏輯激活函數來約束網絡的預測落在該範圍內。

  網絡預測輸出要素圖中每個單元格的5個邊界框。網絡爲每個邊界框預測tx,ty,th,tw和to5個座標。如果單元從圖像的左上角偏移(x,y)並且邊界框先前具有寬度和高度,,則預測對應於:


由於我們約束位置預測,參數化更容易學習,使得網絡更穩定。使用維度集羣以及直接預測邊界框中心位置使YOLO比具有anchor box的版本提高了近5%的mAP

  細粒度特徵。該修改的YOLO版本在13×13特徵圖上檢測。雖然這對於大目標是足夠的,但是它可以從用於定位較小目標的更細粒度特徵中受益。Faster RCNNSSD在網絡中的各種特徵映射上運行它們的提議網絡以獲得一系列分辨率。我們採取不同的方法,只是添加一個傳遞層,這個層能夠將其他26×26分辨率的層融合起來。

  傳遞層通過將相鄰特徵堆疊到不同的通道而不是堆疊到空間位置,將較高分辨率特徵與低分辨率特徵相連,類似於ResNet中的標識映射。這將26×26×512特徵映射轉換爲13×13×2048特徵映射,其可以與原始特徵連接。我們的檢測器在這個擴展的特徵圖的頂部運行,以便它可以訪問細粒度的特徵。這給出將近1%的性能提高。

圖3:具有維度先驗和位置預測的邊界框。我們將box的寬度和高度預測爲來自聚類中心的偏移。我們使用sigmoid函數預測框相對於過濾器應用的位置的中心座標。

 多尺度訓練。原始的YOLO使用448×448的輸入分辨率。添加anchor box後,我們將分辨率更改爲416×416。然而,由於我們的模型只使用卷積層和池化層,它可以在運行中調整大小。我們希望YOLOv2能夠在不同大小的圖像上運行,因此我們將其訓練到模型中

  相比於固定輸入圖像大小,我們每隔幾次迭代更改網絡。每迭代10batch我們的網絡隨機選擇一個新的圖像尺寸大小。由於我們的模型以32的因子下采樣,我們從以下32的倍數中抽取:{320,352...608}。因此,最小的選項是320×320,最大的是608×608.我們調整網絡的大小,並繼續訓練。

  這種訓練方法迫使網絡學習在各種輸入維度上很好地預測。這意味着相同的網絡可以預測不同分辨率的檢測。網絡在更小的尺寸下運行更快,因此YOLOv2在速度和精度之間提供了一個簡單的折衷。

  在低分辨率下,YOLOv2作爲一個便宜相當準確的檢測器。在288×288分辨率下它運行超過90 FPS而且mAP幾乎與Fast RCNN一樣好。這使其成爲較小的GPU,高幀率視頻或多個視頻流的理想選擇。

  在高分辨率下,YOLOv2是一種最先進的檢測器,在VOC 2007上具有78.6 mAP,同時仍然在實時速度以上運行。YOLOv2與其他框架在VOC 2007上的比較見表3

  進一步的實驗。我們訓練YOLOv2VOC 2012上進行檢測。表4顯示了YOLOv2與其他現有技術檢測系統的比較性能.YOLOv2得到73.4 mAP,而運行速度遠遠快於其他方法。我們還對COCO進行訓練,並與表5中的其他方法進行比較。在VOC指標(IOU = 0.5)上,YOLOv2獲得44.0 mAP,SSDfaster RCNN相當。

表3P ASCAL VOC 2007的檢測框架.YOLOv2比現有檢測方法更快,更準確。它也可以運行在不同的分辨率,以便在速度和精度之間輕鬆權衡。每個YOLOv2條目實際上是相同的訓練模型具有相同的權重,只是在不同的大小進行評估。所有的時間信息是在Geforce GTX Titan X(原始,而不是Pascal模型)。

3、更快

  快速檢測。我們希望檢測準確,但我們也希望檢測速度快。大多數檢測應用,如機器人或自動駕駛汽車,都依賴於低延遲預測。爲了最大化性能,我們設計YOLOv2從頭開始快。

  大多數檢測框架依賴於VGG-16作爲基本特徵提取器[17]VGG-16是一個功能強大,精確的分類網絡,但它是不必要的複雜。VGG-16的卷積層需要306.6億浮點操作用於在224×224分辨率的單個圖像上的單次通過。

  YOLO框架使用基於Googlenet架構的自定義網絡[19]。這個網絡比VGG-16快,只使用85.2億次操作進行正向傳遞。但是,它的精度略差於VGG-16。對於單一目標,在224×224分辨率上的top-5精度,YOLO的定製模型ImageNet獲得88.0%,而VGG-1690.0%。

  Darknet-19。我們提出了一個新的分類模型作爲YOLOv2的基礎。我們的模型建立在網絡設計的先前工作以及在該領域的常識基礎上。類似於VGG模型,我們使用大多數3×3的過濾器,並在每個池化步驟後將通道數量加倍[17]。在網絡中的網絡(NIN)中的工作之後,我們使用全局平均池進行預測以及1×1濾波器以壓縮3×3卷積之間的特徵表示[9]。我們使用批次歸一化來穩定訓練,加速收斂,並規則化模型[7]

  我們的最終模型,稱爲Darknet-19,有19卷積層和5個最大池化層。有關完整說明,請參見表6. Darknet-19只需要55.8億次操作來處理圖像,但在ImageNet上實現了72.9%的top-1精度和91.2%的top-5精度。

  爲分類器訓練。我們使用以0.1的起始學習速率的隨機梯度下降,使用4的冪的多項式速率衰減,0.0005的權重衰減和0.9的動量,我們使用Darknet神經網絡框架在標準ImageNet 1000類分類數據集上訓練網絡[13]160個時期。在訓練期間,我們使用標準數據增加技巧,包括隨機作物,旋轉,以及色調,飽和度和曝光移位。

  如上所述,在我們對224×224的圖像的初始訓練之後,我們在更大的尺寸如448上微調我們的網絡.對於這種微調,我們用上述參數訓練,但是僅僅10個時期,並且以的收益率開始。在這個更高的分辨率下,我們的網絡實現了top-1精度爲76.5%,top-5精度爲93.3%。

  爲檢測器訓練。我們通過去除最後的卷積層並且替代地添加具有1024個濾波器的三個3×3卷積層來修改該網絡,每個隨後是具有我們需要檢測所需的輸出數量的最後的1×1卷積層。對於VOC,我們預測5box,每個具有5個座標,每個box20個類,因此125個過濾器。我們還添加了從最後的3×3×512層到第二到最後的卷積層的傳遞層,使得我們的模型可以使用細粒度特徵。

  我們訓練網絡160個時期,開始學習率爲,在6090個時期將其除以10。我們使用0.0005的重量衰減和0.9的動量。我們使用類似的數據增強YOLOSSD隨機作物,顏色轉移等。我們使用相同的培訓策略COCOVOC

表2:從YOLOYOLOv2的路徑。大多數列出的設計決定導致mAP的顯着增加。兩個例外是切換到具有anchor box和使用新網絡的完全卷積網絡。切換到anchor box樣式方法增加了召回率,而不改變mAP,而使用新的網絡切割計算33%。

表4PASCAL VOC2012測試檢測結果。YOLOv2的表現與最先進的檢測器比較,如加上ResNet網絡的faster RCNNSSD512,並且是2 - 10倍。

表5COCO測試的結果-dev2015。表改編自[11]


6 darknet-19

4、更強大

  我們提出了一個關於分類和檢測數據的聯合訓練機制。我們的方法使用標記爲檢測的圖像來學習檢測特定信息,如邊界框座標預測和目標以及如何分類常見目標。它使用只有類標籤的圖像來擴展它可以檢測的類別數。

  在訓練期間,我們混合來自檢測和分類數據集的圖像。當我們的網絡看到標記爲檢測的圖像時,我們可以基於完整的YOLOv2損失函數反向傳播。當它看到一個分類圖像,我們只反向傳播從結構的分類特定部分的損失。

  這種方法提出了一些挑戰。檢測數據集只有常用目標和常規標籤,如dog”或“boat”。分類數據集具有更寬和更深的標籤範圍。ImageNet有超過一百多種品種的狗,包括“諾福克梗犬”,“約克夏犬”和“貝靈頓梗犬”。如果我們想訓練兩個數據集,我們需要一種連貫的方式來合併這些標籤。

  大多數分類方法在所有可能的類別中使用softmax層來計算最終的概率分佈。使用softmax假定類是互斥的。這提出了組合數據集的問題,例如,您不想使用此模型組合ImageNetCOCO,因爲類“Norfolk terrier”和“dog”不是互斥的。

  我們可以使用多標籤模型來組合不承擔互斥的數據集。這種方法忽略了我們所知道的關於數據的所有結構,例如所有的COCO類是相互排斥的。

  分層分類。ImageNet標籤是從WordNet中提取的,WordNet是一個語言數據庫,用於構建概念及其關係[12]。在WordNet中,“諾福克犬”和“約克夏犬”都是“獵犬”的下位詞,“獵犬”是一種“獵犬”,是一種“狗”,是一種“犬”分類假設一個平面結構到標籤,但是對於組合數據集,結構正是我們需要的。

  WordNet被構造爲有向圖,而不是樹,因爲語言是複雜的。例如,“狗”既是“犬”的一種類型,也是“家畜”的類型,它們都是WordNet中的同義詞。不是使用完整的圖結構,我們通過從ImageNet中的概念構建層次樹來簡化問題。

  爲了構建這個樹,我們檢查ImageNet中的視覺名詞,看看他們通過WordNet圖到根節點的路徑,在這種情況下是“物理目標”。許多synsets只有一條路徑通過圖,所以首先我們添加所有這些路徑到我們的樹。然後我們迭代地檢查我們剩下的概念,並添加儘可能少地生長樹的路徑。因此,如果一個概念有兩個到根的路徑,一個路徑會給我們的樹添加三個邊,而另一個只添加一個邊,我們選擇較短的路徑。

  最終的結果是WordTree,一個視覺概念的層次模型。要使用WordTree執行分類,我們預測在每個節點的條件概率的給定synset的同義詞的每個下位詞的概率。例如,在“terrier”節點,我們預測:

如果我們要計算特定節點的絕對概率,我們只需遵循通過樹到達根節點的路徑,並乘以條件概率。因此,如果我們想知道圖片是否是諾福克梗犬,我們計算:

爲了分類的目的,我們假設圖像包含一個目標:Pr(物理目標)= 1

  爲了驗證這種方法,我們訓練使用1000ImageNet構建的WordTree上的Darknet-19模型。爲了構建WordTree1k,我們在所有的中間節點中添加將標籤空間從1000擴展到1369.在訓練期間,我們沿着樹傳播ground truth標籤,以便如果圖像被標記爲“諾福克梗犬”,它也被標記爲“狗”和“哺乳動物”等。爲了計算條件概率,我們的模型預測了1369個值的向量,並且我們計算作爲相同概念的下位詞的所有系統的softmax,參見圖5

  使用與以前相同的訓練參數,我們的分層Darknet-19實現71.9%的top-1精度和90.4%的top-5精度。儘管增加了369個附加概念,並且我們的網絡預測了一個樹結構,我們的準確度只有輕微下降。以這種方式執行分類也具有一些益處。性能在新的或未知的目標類別上正常降級。例如,如果網絡看到一隻狗的圖片,但不確定它是什麼類型的狗,它仍然會預測具有高信度的“狗”,但具有較低的置信度散佈在上下義詞。

  這個公式也用於檢測。現在,不是假設每個圖像都有一個目標,我們使用YOLOv2的目標預測器來給我們Pr(物理目標)的值。檢測器預測邊界框和概率樹。我們遍歷樹,在每個分割中採用最高置信度路徑,直到我們達到某個閾值,我們預測目標類。

圖5ImageNetWordTree的預測大多數ImageNet模型使用一個大的softmax來預測概率分佈使用WordTree,我們對同義詞執行多個softmax操作。

WordTree的數據集組合。我們可以使用WordTree以合理的方式將多個數據集組合在一起。我們只需將數據集中的類別映射到樹中的同義詞。圖6顯示了使用WordTree組合來自ImageNetCOCO的標籤的示例.WordNet極其多樣化,因此我們可以將此技術用於大多數數據集。

聯合分類和檢測。現在我們可以使用WordTree組合數據集,我們可以訓練我們的分類和檢測聯合模型。我們要訓練一個極大尺度的檢測器,因此我們使用COCO探測數據集和來自完整ImageNet版本的前9000類創建組合數據集。我們還需要評估我們的方法,所以我們添加在ImageNet還沒有包括任何類的檢測挑戰集。WordTree數據集相應的具有9418個類。ImageNet是一個更大的數據集,因此我們通過對COCO進行過採樣來平衡數據集,使ImageNet只有41的倍數。

我們使用此數據集訓練YOLO9000。我們使用基本的YOLOv2架構,但只有3個先驗,而不是5,以限制輸出大小。當我們的網絡看到檢測圖像時,我們回傳正常的損失。對於分類損失,我們只反向傳播損失在或高於標籤的相應水平。例如,如果標籤是“狗”,我們會在樹中“德國牧羊犬”和“金毛獵犬”的預測中分配任何錯誤,因爲我們沒有這些信息。

圖6:使用WordTree層次結構組合數據集。使用WordNet概念圖,我們構建了一個視覺概念的分層樹。然後我們可以通過將數據集中的類映射到樹中的synsets來將數據集合並在一起。這是WordTree的簡化視圖用於說明的目的。

當它看到一個分類圖像,我們只反向分配損失。爲此,我們只需找到預測該類的最高概率的邊界框,然後僅計算其預測樹上的損失。我們還假設預測框與grountruth標籤重疊的IOU至少0.3,並且基於該假設反向傳播物體損失。

使用這種聯合訓練,YOLO9000使用COCO中的檢測數據學習找到圖像中的目標,並使用ImageNet中的數據學習分類各種各樣的這些目標。

我們在ImageNet檢測任務上評估YOLO9000ImageNet的檢測任務共享44個具有COCO的目標類別,這意味着YOLO9000只看到大多數測試圖像的分類數據,而不是檢測數據。YOLO9000獲得19.7 mAP整體與16.0 mAP對不相交的156目標類,它從未見過任何標記的檢測數據。這個mAP高於DPM實現的結果,但YOLO9000是在不同的數據集訓練,只有部分監督[4]。它還同時檢測9000個其他目標類別,都是實時的。

當我們分析YOLO9000ImageNet上的性能時,我們看到它學習了新的物種,但很難學習類別,如服裝和設備。

新動物更容易學習,因爲目標預測與COCO中的動物很好地一致。相反,COCO沒有任何類型的衣服的邊界框標籤,只有人,所以YOLO9000努力模擬類似“太陽鏡”或“游泳褲”的類別。

表7ImageNet上的YOLO9000最佳和最差類具有來自156個弱監督類的最高和最低AP的類。YOLO9000學習各種動物的好模型,但努力與新的類,如服裝或設備。

5、結論

  我們介紹YOLOv2YOLO9000,實時檢測系統。YOLOv2是最先進的,並且比其他檢測系統在各種檢測數據集中更快。此外,它可以以各種圖像大小運行,以提供速度和精度之間的平滑權衡。

  YOLO9000是一個通過聯合優化檢測和分類檢測9000多個目標類別的實時框架。我們使用WordTree來組合來自各種來源的數據和我們的聯合優化技術同時訓練ImageNetCOCOYOLO9000是關閉檢測和分類之間的數據集大小差距的強大步驟。

  我們的許多技術泛化到目標檢測之外。ImageNetImageTree表示爲圖像分類提供了更豐富,更詳細的輸出空間。使用分層分類的地形組合在分類和分割領域將是有用的。諸如多尺度訓練的訓練技術可以在各種視覺任務中提供益處。

  對於未來的工作,我們希望使用類似的技術弱監督圖像分割。我們還計劃使用更強大的匹配策略來改進我們的檢測結果,以在訓練期間將弱標籤分配給分類數據。計算機視覺有大量的標記數據。我們將繼續尋找方法,將不同的數據源和結構的數據結合在一起,形成更強大的視覺世界模型。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章