最近圖像理解受到了廣泛的關注,我們也來稍微瞭解一下神馬是圖像理解,圖像標註的評價標準是神馬,哇咔咔
圖像理解就是理解圖像的內容,通俗一些呢就是用一句話描述你所看到的圖片中的內容。
深度學習這麼火,我們一定嘗試一下,看看它是否可以解決這個問題。噢,不!是一定可以解決,只是時間問題或者框架如何設計的問題【大家一定要相信一個真理:深度學習可以搞定一切----說得自己都有點尷尬了不 我沒有
OK,迴歸主題。既然我們要使用萬能的DL,那麼一定要有數據庫是的吧?數據庫就一定要有標籤label是的吧?對,圖像標註就是那個描述圖片內容的句子,也就是標籤label��️
不同的人、機器對同一張圖片的描述是不一樣的。其中自然就會有好壞之分。如何區分好壞呢?我們偉大的前輩們就提出了以下幾種評價方法:
B-1, B-2, B-3, B-4, M, R, CIDEr
得分越高越好,現在已經有論文可以做到在兩個數據集(5-refs和40-refs,5-Refs和40-Refs表示的是測試集中有兩個數據集,一個數據集每張圖像有5個參考標註(也就是人類輸入的正確語句),一個數據集每張圖像有40個參考標註。)參與評分的14個(2數據集 * 7指標)得分中有13個高於人類。然而這並不能說明現在的算法已經很好了。因爲會有一些慘不忍睹的例子。而人類一般是不會犯這種低級錯誤噠。
在這裏上傳代碼,可以得到在ms coco caption的評測得分。但是次數有限。
https://www.codalab.org/competitions/3221
GitHub上也可以下載代碼本地測試。
https://github.com/tylin/coco-caption
其他還有flickr8k和30k,數據量遠小於ms coco caption,應該也不會用到,就不細說啦。
目前也有基於遊戲標註的數據集。
有一篇論文對各個評價方法做了對比,來看這些方法是否可以有效評判算法的好壞,直接上結論。
論文的結論是首先推薦METEOR,或者使用ROUGE SU-4和Smoothed BLEU。PS:由於CIDEr標準是2015發佈,所以這篇論文中沒有體現。
Perplexity
得到句子的困惑度,就是有多少可能性這個句子是不好的?數值越低越好。bleu:思想是--機器翻譯的語句與人類的專業翻譯語句越接近越好。分數越高越好
rouge:
meteor:
cider:
找個時間繼續補全咯。。。今天還有事,先去忙啦,啊哈哈
本文內容參考自:
https://zhuanlan.zhihu.com/p/22408033?utm_medium=social&utm_source=wechat_session