【深度學習】圖像標註評價標準

最近圖像理解受到了廣泛的關注,我們也來稍微瞭解一下神馬是圖像理解,圖像標註的評價標準是神馬,哇咔咔


圖像理解就是理解圖像的內容,通俗一些呢就是用一句話描述你所看到的圖片中的內容。

深度學習這麼火,我們一定嘗試一下,看看它是否可以解決這個問題。噢,不!是一定可以解決,只是時間問題或者框架如何設計的問題【大家一定要相信一個真理:深度學習可以搞定一切----說得自己都有點尷尬了微笑不 我沒有


OK,迴歸主題。既然我們要使用萬能的DL,那麼一定要有數據庫是的吧?數據庫就一定要有標籤label是的吧?對,圖像標註就是那個描述圖片內容的句子,也就是標籤label��️


不同的人、機器對同一張圖片的描述是不一樣的。其中自然就會有好壞之分。如何區分好壞呢?我們偉大的前輩們就提出了以下幾種評價方法:

B-1, B-2, B-3, B-4, M, R, CIDEr

得分越高越好,現在已經有論文可以做到在兩個數據集(5-refs和40-refs5-Refs和40-Refs表示的是測試集中有兩個數據集,一個數據集每張圖像有5個參考標註(也就是人類輸入的正確語句),一個數據集每張圖像有40個參考標註。)參與評分的14個(2數據集 * 7指標)得分中有13個高於人類。然而這並不能說明現在的算法已經很好了。因爲會有一些慘不忍睹的例子。而人類一般是不會犯這種低級錯誤噠。


在這裏上傳代碼,可以得到在ms coco caption的評測得分。但是次數有限。

https://www.codalab.org/competitions/3221

GitHub上也可以下載代碼本地測試。

https://github.com/tylin/coco-caption


其他還有flickr8k和30k,數據量遠小於ms coco caption,應該也不會用到,就不細說啦。

目前也有基於遊戲標註的數據集。


有一篇論文對各個評價方法做了對比,來看這些方法是否可以有效評判算法的好壞,直接上結論。

論文的結論是首先推薦METEOR,或者使用ROUGE SU-4和Smoothed BLEU。PS:由於CIDEr標準是2015發佈,所以這篇論文中沒有體現。


Perplexity

得到句子的困惑度,就是有多少可能性這個句子是不好的?數值越低越好。



bleu:思想是--機器翻譯的語句與人類的專業翻譯語句越接近越好。分數越高越好

rouge:

meteor:

cider:


找個時間繼續補全咯。。。今天還有事,先去忙啦,啊哈哈


本文內容參考自:

https://zhuanlan.zhihu.com/p/22408033?utm_medium=social&utm_source=wechat_session  


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章