視覺與語言

12合1：多任務視覺和語言表示學習

論文地址：https://arxiv.org/abs/1912.02315

基於視覺和語言的方法通常專注於少量孤立研究的獨立任務。但是，作者指出，完成這些任務中的每一項都需要具有視覺基礎的語言理解技能，這些技能明顯重疊。

爲此，本文提出了一種大規模、多任務的訓練方案，該模型採用單一模型對來自以下四大類任務的12個數據集進行了訓練：視覺問題回答、基於字幕的圖像檢索，基礎引用表達式和多模式驗證。使用單個模型有助於將參數數量從大約30億個參數減少到2.7億個，同時提高跨任務的性能。

該模型基於ViLBERT，其中每個任務都有一個特定任務的head網絡，該head絡分支出一個公共的共享幹線（即ViLBERT模型）。擁有6個任務head，12個數據集以及超過440萬個獨立的訓練實例，這種規模的多任務訓練很難控制。爲了克服這個問題，首先將所有模型都在同一數據集上進行預訓練。然後使用循環批採樣從多任務訓練開始循環遍歷每個任務，並在發現某些過擬合的情況下儘早停止（early stopping）以停下給定任務，並有可能重新開始訓練以避免災難性遺忘。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

CVPR （《28篇論文、6 大主題帶你一覽 CVPR 2020 研究趨勢》學習筆記六視覺與語言）

視覺與語言

12合1：多任務視覺和語言表示學習

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

CVPR （《28篇論文、6 大主題帶你一覽 CVPR 2020 研究趨勢》學習筆記一圖像識別，檢測和分割）

吳恩達深度學習課程之第一門課神經網絡和深度學習第二週課程筆記二

吳恩達深度學習課程之第一門課神經網絡和深度學習第二週課程筆記一

吳恩達深度學習課程之第一門課神經網絡和深度學習第一週課程筆記

CVPR （《28篇論文、6 大主題帶你一覽 CVPR 2020 研究趨勢》學習筆記四計算攝影）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結