CVPR (《28篇論文、6 大主題帶你一覽 CVPR 2020 研究趨勢》學習筆記六視覺與語言)

原文鏈接:https://mp.weixin.qq.com/s/MkEwjHVC9M1JtdzZZdmeFw

視覺與語言

12合1:多任務視覺和語言表示學習

論文地址:https://arxiv.org/abs/1912.02315

基於視覺和語言的方法通常專注於少量孤立研究的獨立任務。但是,作者指出,完成這些任務中的每一項都需要具有視覺基礎的語言理解技能,這些技能明顯重疊。

爲此,本文提出了一種大規模、多任務的訓練方案,該模型採用單一模型對來自以下四大類任務的12個數據集進行了訓練:視覺問題回答、基於字幕的圖像檢索,基礎引用表達式和多模式驗證。使用單個模型有助於將參數數量從大約30億個參數減少到2.7億個,同時提高跨任務的性能。

該模型基於ViLBERT,其中每個任務都有一個特定任務的head網絡,該head絡分支出一個公共的共享幹線(即ViLBERT模型)。擁有6個任務head,12個數據集以及超過440萬個獨立的訓練實例,這種規模的多任務訓練很難控制。爲了克服這個問題,首先將所有模型都在同一數據集上進行預訓練。然後使用循環批採樣從多任務訓練開始循環遍歷每個任務,並在發現某些過擬合的情況下儘早停止(early stopping)以停下給定任務,並有可能重新開始訓練以避免災難性遺忘。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章