報告內容
(泛讀靠自覺,精讀要深刻,進展需顯著)
論文精讀
論文1:(作者,題目,發表信息)
作者:Andrea Frome*, Greg S. Corrado*, Jonathon Shlens*, Samy Bengio,Jeffrey Dean,Marc‘Aurelio Ranzato,Tomas Mikolov(谷歌公司)
題目:【NIPS2013】DeViSE: A Deep Visual-Semantic Embedding Model(深層視覺語義嵌入模型)
問題動機:通過對數據集的訓練實現根據圖片進行零樣本預測語義標籤
解決思路:
方法亮點:
1)視覺神經網絡模型與語義模型組合; (2)兩網絡進行預訓練,並將參數傳遞給聯合模型; (3)使用了兩種評估標準分別與主流方法進行比較; (4)比較了不同難度的數據集預測情況; (5)兩種版本預測內容(訓練標籤與零樣本標籤)不同。
主要結果:根據圖片預測標籤,並進行分類
存在問題:
關於能否解決自己問題的思考:DeViSE+1K和DeViSE+0 表示是否預測未出現的標籤
論文2:(作者,題目,發表信息)
題目:【CVPR2016】Learning deep representations of fine grained visual descriptions.(細粒度視覺描述的深層表示)
作者:密歇根大學,馬克斯-普朗克信息學研究所
Scott Reed1 , Zeynep Akata2 , Honglak Lee1 and Bernt Schiele
問題動機:
解決思路:
方法亮點:(1)深層聯合結構(2)文本編碼器模型函數
主要結果:
存在問題:
關於能否解決自己問題的思考:目標函數和損失函數的定義值得學習(雙向損失函數)
研究進展
方法進展(反映思考深入程度):
實驗進展(反映Coding工作量):