騰訊AI Lab開源業內最大規模多標籤圖像數據集

注：文末有【每日一題】，歡迎打卡

前戲

最近有朋友反映公衆號的文章質量下降，比如沒有原創血液，Amusi 表示很無奈，最近比較忙，就連之前報名的比賽很久沒上手弄了。

CVer公衆號接下來會推送最新的原創內容：

一種新的標註軟件
PyTorch新工具包
目標檢測最強綜述（兩篇paper，其中一篇106頁）
一種新的醫學圖像數據集

敬請期待

Tencent ML-Images

轉載：騰訊AI Lab宣佈將於9月底開源“Tencent ML-Images”項目，該項目由多標籤圖像數據集ML-Images，以及業內目前同類深度學習模型中精度最高的深度殘差網絡ResNet-101構成。

該項目的開源，是騰訊AI Lab在計算機視覺領域所累積的基礎能力的一次釋放，爲人工智能領域的科研人員和工程師提供充足的高質量訓練數據，及簡單易用、性能強大的深度學習模型，促進人工智能行業共同發展。

騰訊AI Lab此次公佈的圖像數據集ML-Images，包含了1800萬圖像和1.1萬多種常見物體類別，在業內已公開的多標籤圖像數據集中規模最大，足以滿足一般科研機構及中小企業的使用場景。此外，騰訊AI Lab還將提供基於ML-Images訓練得到的深度殘差網絡ResNet-101。該模型具有優異的視覺表示能力和泛化性能，在當前業內同類模型中精度最高，將爲包括圖像、視頻等在內的視覺任務提供強大支撐，並助力圖像分類、物體檢測、物體跟蹤、語義分割等技術水平的提升。

以深度神經網絡爲典型代表的深度學習技術已經在很多領域充分展現出其優異的能力，尤其是計算機視覺領域，包括圖像和視頻的分類、理解和生成等重要任務。然而，要充分發揮出深度學習的視覺表示能力，必須建立在充足的高質量訓練數據、優秀的模型結構和模型訓練方法，以及強大的的計算資源等基礎能力之上。

各大科技公司都非常重視人工智能基礎能力的建設，都建立了僅面向其內部的大型圖像數據集，例如谷歌的JFT-300M和Facebook的Instagram數據集。但這些數據集及其訓練得到的模型都沒有公開，對於一般的科研機構和中小企業來說，這些人工智能基礎能力有着非常高的門檻。

當前業內公開的最大規模的多標籤圖像數據集是谷歌公司的Open Images, 包含900萬訓練圖像和6000多物體類別。騰訊AI Lab此次開源的ML-Images數據集包括1800萬訓練圖像和1.1萬多常見物體類別，或將成爲新的行業基準數據集。除了數據集，騰訊AI Lab團隊還將在此次開源項目中詳細介紹：

(1) 大規模的多標籤圖像數據集的構建方法，包括圖像的來源、圖像候選類別集合、類別語義關係和圖像的標註。在ML-Images的構建過程中，團隊充分利用了類別語義關係來幫助對圖像的精準標註。

(2) 基於ML-Images的深度神經網絡的訓練方法。團隊精心設計的損失函數和訓練方法，可以有效抑制大規模多標籤數據集中類別不均衡對模型訓練的負面影響。

(3) 基於ML-Images訓練得到的ResNet-101模型，具有優異的視覺表示能力和泛化性能。通過遷移學習，該模型在ImageNet驗證集上取得了80.73%的top-1分類精度，超過谷歌同類模型（遷移學習模式）的精度，且值得注意的是，ML-Images的規模僅爲JFT-300M的約1/17。這充分說明了ML-Images的高質量和訓練方法的有效性。詳細對比如下表。

注：微軟ResNet-101模型爲非遷移學習模式下訓練得到，即1.2M預訓練圖像爲原始數據集ImageNet的圖像。

騰訊AI Lab此次開源的“Tencent ML-Images”項目，展現了騰訊在人工智能基礎能力建設方面的努力，以及希望通過基礎能力的開放促進行業共同發展的願景。

“Tencent ML-Images”項目的深度學習模型，目前已在騰訊多項業務中發揮重要作用，如“天天快報”的圖像質量評價與推薦功能。如下圖所示，天天快報新聞封面圖像的質量得到明顯提高。

優化前優化後

此外，騰訊AI Lab團隊還將基於Tencent ML-Images的ResNet-101模型遷移到很多其他視覺任務，包括圖像物體檢測，圖像語義分割，視頻物體分割，視頻物體跟蹤等。這些視覺遷移任務進一步驗證了該模型的強大視覺表示能力和優異的泛化性能。“Tencent ML-Images”項目未來還將在更多視覺相關的產品中發揮重要作用。

昨天回憶

13.【單選題】在其他條件不變的前提下，以下哪種做法容易引起機器學習中的過擬合問題？

A 增加訓練集量

B 減少神經網絡隱藏層節點數

C 刪除稀疏的特徵 S

D SVM算法中使用高斯核/RBF核代替線性核

正確答案：D。

答案解析：一般情況下，越複雜的系統，過擬合的可能性就越高，一般模型相對簡單的話泛化能力會更好一點。

B.一般認爲，增加隱層數可以降低網絡誤差（也有文獻認爲不一定能有效降低），提高精度，但也使網絡複雜化，從而增加了網絡的訓練時間和出現“過擬合”的傾向， svm高斯核函數比線性核函數模型更復雜，容易過擬合

D.徑向基(RBF)核函數/高斯核函數的說明,這個核函數可以將原始空間映射到無窮維空間。對於參數，如果選的很大，高次特徵上的權重實際上衰減得非常快，實際上（數值上近似一下）相當於一個低維的子空間；反過來，如果選得很小，則可以將任意的數據映射爲線性可分——當然，這並不一定是好事，因爲隨之而來的可能是非常嚴重的過擬合問題。不過，總的來說，通過調整參數，高斯覈實際上具有相當高的靈活性，也是使用最廣泛的核函數之一。

每日一題

14.【多選題】以下哪些選項屬於線性分類器準則?

A.感知準則函數

B.貝葉斯分類

C.支持向量機

D.Fisher準則

如何看到【每日一題】？

答：CVer每篇文章的底部、CVer微信羣和CVerQQ羣，這三個平臺會同步推送。

Amusi會把每天更新的題目與答案都上傳到【daily-question】。點擊"閱讀原文"，即可訪問

daily-question github:

https://github.com/amusi/daily-question

騰訊AI Lab開源業內最大規模多標籤圖像數據集

前戲

Tencent ML-Images

昨天回憶

每日一題

最新的46篇CV論文！

愛可可老師24小時熱門分享(2018.11.26)

關於本次CVPR 2019投稿的一些感想

如何評價何愷明等新作《Rethinking ImageNet Pre-training》

我的八年博士生涯（學術篇）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結