VLP大規模數據集收集策略 1.Wukong的一億圖文對數據集收集策略: 2. CLIP4億圖文對收集策略 3. ALIGN 18億圖文對收集策略

1.Wukong的一億圖文對數據集收集策略:

Wukong:100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation
在視覺語言預訓練領域(VLP)華爲開源了1億對圖像-文本本數據集,是目前中文領域的最大圖文對數據集。
超過一億體量的英文圖像-文本對 CLIP (Radford et al.,2021): 400M and ALIGN (Jia et al., 2021)都沒有開源。



目前VLP領域主要是英文數據集,但是英文數據對於中文任務幫助有限。文章的意思應該是使用英文數據集訓練模型,在下游中文任務上通過翻譯實現文字-圖像匹配性能不佳。
但是將現有的英文數據集文字轉換成中文應該是可行的。


1.數據集的收集方法
使用下文的20萬條搜索詞在百度圖像引擎上進行搜索,獲得對應圖像的url和描述信息。
Directional skip-gram: Explicitly distinguishing left and right context for
word embeddings. In Proceedings of the 2018 Conference of the North American Chapter of the Association
for Computational Linguistics
搜索詞根據中文詞句的頻率進行過濾。
得到中文圖像對後,從圖像和文本兩個方面進行過濾。
(Sharma et al., 2018; Changpinyo et al., 2021; Jia et al., 2021),
基於圖像的過濾,根據圖像尺寸和分辨率,長寬均要大於200分辨率。長寬比(寬長比)要小於3.
基於文本的過濾,考慮語言,長度和頻率。
句子的長度大於1小於32.去除掉無意義和與內容不相關的描述,000.jpg,攝影部落 查看源網頁
與內容無關的描述的篩除方法是根據同一描述出現次數大於10次就認爲其與內容無關,需要刪除圖文對。
爲了保護隱私,具體的名字用〈人名〉代替
指定中文敏感詞刪除相應內容。
獨特的tokens數量爲20442,平均描述的token數量爲22


2. CLIP4億圖文對收集策略

Learning Transferable Visual Models From Natural Language Supervision
作者起初認爲YFCC100M這個一億張圖片的數據集是此領域可供使用的數據集,後來發現其圖片的描述多爲卻是的,質量不一。很多描述都沒有實際意義,所以決定自己進行收集數據集
整體的收集策略是cover as broad a set of visual concepts as possible。
使用了50萬個搜索詞。搜索詞的來源是英文維基百科出現100次以上的詞語。WordNet synsets 中沒有被上述搜索詞包含的詞語也加上了。
爲了保證類間的平衡,每個關鍵詞最多收集2萬張圖片。

3. ALIGN 18億圖文對收集策略

作者認爲CLIP等數據集使用的數據收集和清理策略比較複雜,限制了數據集的體量,也就影響了模型的體量。所以本文收集了一個十億級別的圖文對數據,沒有使用複雜的過濾或者後處理步驟。作者收集了一個規模很大同時文本噪聲也較多的數據集。作者認爲數據集的規模有助於抑制噪聲的影響。
ALIGN服從根據raw alt-text data獲得的圖文對的自然分佈,而CLIP從英文維基百科構建一個高頻視覺概念的列表來構建數據集。作者認爲強大的視覺-語言表徵不需要專家知識。
作者使用下文的方法生成raw English alt-text data (image and alt-text pairs)。原始論文包含很多過濾和後處理手段。爲了獲得更大規模的數據集,作者以質量換取規模,放鬆了過濾規則。只用了少量基於頻率的過濾規則。
Sharma, P., Ding, N., Goodman, S., and Soricut, R. Conceptual captions: A cleaned, hypernymed, image alt-text
dataset for automatic image captioning. In Proceedings
of Annual Meeting of the Association for Computational
Linguistics, 2018.
真實數據集中有些描述明顯與圖片無關。



基於圖片的過濾規則:移除色情圖片;短邊大於200像素;長寬比小於3;Images with more than 1000 associated alt-texts are discarded. ?爲了防止引入測試圖片,刪除了下游任務數據集的測試集。
基於文本的過濾:去除了超過十張圖片公用的文本;去除了包含少見token的文本,outside of 100 million most frequent unigrams
and bigrams from the raw dataset。太短太長的文本也刪除了,too short (<3 unigrams) or too long (>20 unigrams)。
unigrams and bigrams是NLP中的分詞概念。
比如:Hi How are you?
Unigram [('Hi'), ('How'), ('are'), ('you'),('?')]
Bigram [('Hi', 'How'), ('How', 'are'), ('are', 'you'), ('you', '?')]
<3 >20的意思應該是一句話的詞的數量+標點的數量。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章