【深度學習】圖像標註評價標準

原創

Sun7_She

2018-09-03 06:35

最近圖像理解受到了廣泛的關注，我們也來稍微瞭解一下神馬是圖像理解，圖像標註的評價標準是神馬，哇咔咔

圖像理解就是理解圖像的內容，通俗一些呢就是用一句話描述你所看到的圖片中的內容。

深度學習這麼火，我們一定嘗試一下，看看它是否可以解決這個問題。噢，不！是一定可以解決，只是時間問題或者框架如何設計的問題【大家一定要相信一個真理：深度學習可以搞定一切----說得自己都有點尷尬了不我沒有

OK，迴歸主題。既然我們要使用萬能的DL，那麼一定要有數據庫是的吧？數據庫就一定要有標籤label是的吧？對，圖像標註就是那個描述圖片內容的句子，也就是標籤label��️

不同的人、機器對同一張圖片的描述是不一樣的。其中自然就會有好壞之分。如何區分好壞呢？我們偉大的前輩們就提出了以下幾種評價方法：

B-1, B-2, B-3, B-4, M, R, CIDEr

得分越高越好，現在已經有論文可以做到在兩個數據集（5-refs和40-refs，5-Refs和40-Refs表示的是測試集中有兩個數據集，一個數據集每張圖像有5個參考標註（也就是人類輸入的正確語句），一個數據集每張圖像有40個參考標註。）參與評分的14個（2數據集 * 7指標）得分中有13個高於人類。然而這並不能說明現在的算法已經很好了。因爲會有一些慘不忍睹的例子。而人類一般是不會犯這種低級錯誤噠。

在這裏上傳代碼，可以得到在ms coco caption的評測得分。但是次數有限。

https://www.codalab.org/competitions/3221

GitHub上也可以下載代碼本地測試。

https://github.com/tylin/coco-caption

其他還有flickr8k和30k，數據量遠小於ms coco caption，應該也不會用到，就不細說啦。

目前也有基於遊戲標註的數據集。

有一篇論文對各個評價方法做了對比，來看這些方法是否可以有效評判算法的好壞，直接上結論。

論文的結論是首先推薦METEOR，或者使用ROUGE SU-4和Smoothed BLEU。PS：由於CIDEr標準是2015發佈，所以這篇論文中沒有體現。

Perplexity

得到句子的困惑度，就是有多少可能性這個句子是不好的？數值越低越好。

bleu：思想是--機器翻譯的語句與人類的專業翻譯語句越接近越好。分數越高越好

rouge：

meteor：

cider：

找個時間繼續補全咯。。。今天還有事，先去忙啦，啊哈哈

本文內容參考自：

https://zhuanlan.zhihu.com/p/22408033?utm_medium=social&utm_source=wechat_session

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【深度學習】圖像標註評價標準

Perplexity

記一次 .NET某工業設計軟件崩潰分析

創建 Vue3 項目

TS + Webpack 整合 Jest

分享5款.NET開源免費的Redis客戶端組件庫

安卓手機如何登錄抖音境外版

golang開發 gorilla websocket的使用

面試官：如果不允許線程池丟棄任務，應該選擇哪個拒絕策略？

嵌入式汽車電子學習路線

Mac卸載 Node npm，升級 Node

uni.showModel內容換行

total variation

win10 - Texlive - File numcompress.sty not found 解決方案

人臉數據庫簡要介紹

DL學習筆記【20】nn包中的各位Simple layers

巨坑。。cuda！隨手記錄一點經驗（慎點-估計只有自己能看懂）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結