圖像中文描述

圖像中文描述

用一句話描述給定圖像中的主要信息,挑戰中文語境下的圖像理解問題。嘗試自然語言處理與計算機視覺技術結合的力量

https://challenger.ai/competition/caption/subject

圖像中文描述問題融合了計算機視覺與自然語言處理兩個方向,是用人工智能算法解決多模式、跨領域問題的典型代表。參賽者需要對給定的每一張測試圖片輸出一句話的描述。描述句子要求符合自然語言習慣,點明圖像中的重要信息,涵蓋主要人物、場景、動作等內容。此次發佈的圖像描述數據集以中文描述語句爲主,與同類科研任務常見的英文數據集相比,中文描述通常在句法、詞法上靈活度較大,算法實現的挑戰也較大。組委會將通過客觀指標BLEU,METEOR,ROUGELCIDEr(BLEU,METEOR,ROUGEL和CIDEr)和主觀評價Coherence,Relevance,HelpfulforBlind(Coherence,Relevance,HelpfulforBlind),並結合答辯表現,對參賽隊伍進行評價。

數據說明

數據形式包含圖像和對應5句中文描述,以下圖爲例。

中文描述

1)藍天下一個穿灰色T恤帥小夥以瀟灑的姿勢上籃

2)蔚藍的天空下一位英姿颯爽的男孩在上籃

3)藍天下一個騰空躍起的男人正在奮力地灌籃

4)一個穿着灰色運動裝的男生在晴朗的天空下打籃球

5)一個短頭髮的男孩在籃球場上騰空躍起


結果提交說明

選手提交的預測結果需要對每一張圖片輸出一句預測的中文描述語句,提交的預測文件格式存儲爲JSON,按照以下格式進行提交:


[
    {
        "image_id":"d9a9a8cfb9fdebe3f4f6996756ae23ae0e473d0c",
        "caption": "藍天下一個男孩在投籃"
    },
    {
        "image_id":"a0f6bdc065a602b7b84a67fb8d14ce403d902e0d",
        "caption": "一個小男孩在安靜的小河邊釣魚"
    },
    ...
]
    
評價標準

本賽道採用客觀和主觀相結合的評價標準,和答辯環節得分的總和 (根據主客觀得分優秀者進入答辯環節)。

客觀評價總覽

客觀的評價標準包括:BLEU,METEOR,ROUGEL,CIDEr。根據這四個評價標準得到一個客觀評價的得分。[1]

Sm1(team)=14S(team@BLEU@4)+14S(team@METEOR)+14S(team@ROUGEL)+14S(team@CIDErD)Sm1(team)=14S(team@BLEU@4)+14S(team@METEOR)+14S(team@ROUGEL)+14S(team@CIDErD)

其中的S(team)@METEOR表示在METEOR標準下進行標準化後的得分,Sm1(team)表示客觀評價分數的加權平均值,然後對分數Sm1(team)進行標準化處理得到的客觀評價分數。

我們將提供驗證腳本,幫助選手在線下測試模型效果。測試腳本、以及詳細使用方法,將與驗證數據集同時發佈。

提示:圖像中文描述比賽評測過程使用jieba 0.38進行中文分詞。


主觀評價總覽

主觀的評價包括:

對測試結果中的子集由評委團進行主觀評價,對每個代表隊的候選句子進行打分(1-5),分數越高越好。打分遵循三個原則。

流暢度(Coherence):評價生成語句的邏輯和可讀性。

相關性(Relevance):評價生成語句是否包含對應的圖像中有的重要的物體/動作/事件等。

助盲性(Help_For_Blind):評價生成語句對一個有視力缺陷的人去理解圖像有幫助的程度。

得到主觀評價排名m2,公式如下:

Sm2(team)=13S(team@Coherence)+13S(team@Relevance)+13S(team@Helpful_for_Blind)Sm2(team)=13S(team@Coherence)+13S(team@Relevance)+13S(team@Helpful_for_Blind)

其中S(team)@CoherenceS(team)@Coherence表示在CoherenceCoherence上進行標準化後的分數。


綜合主觀和客觀評價

綜合主客觀評價排名選出優秀的團隊參加最終的答辯

Sm1m2(team)=Sm1(team)+Sm2(team)Sm1m2(team)=Sm1(team)+Sm2(team)

Sm1m2Sm1m2分數進行從高到低排序,優選出若干只隊伍進入答辯環節。


答辯分數

我們根據主客觀的排名情況,選擇若干只優秀的隊伍進入最終答辯環節,Sm3(team)Sm3(team)爲答辯評分標準化後的分數。

Sm3(team)Sm3(team) is the presentation performance score. Similarly Sm3(team)Sm3(team) needs to be normalized.


最終得分

Sm1m2m3(team)=Sm1(team)+Sm2(team)+Sm3(team)Sm1m2m3(team)=Sm1(team)+Sm2(team)+Sm3(team)

其中Sm1m2m3(team)Sm1m2m3(team)爲綜合客觀指標、主觀指標與答辯得分的最終分數,權重待定。本次比賽將根據三項加權的最終分數從高到低進行排名。

詳細客觀評價方法

本次圖像描述比賽客觀評價採用四種常用評價標準:BLEUBLEUMETEORMETEORROUGEROUGE和 CIDErCIDEr

BLEUBLEU (Bilingual Evaluation Understudy)

BLEUBLEU是一種通過計算候選譯文和參考譯文中nn元詞共同出現的程度,來衡量候選句子與參考句子相似度的機器翻譯度量方法。計算公式如下:

BLEUN(C,S)=b(C,S)exp(Nn=1ωnlogCPn(C,S))BLEUN(C,S)=b(C,S)exp⁡(∑n=1Nωnlog⁡CPn(C,S))
CPn(C,S)=ikmin(hk(ci),maxjmhk(sij))ikhk(ci)CPn(C,S)=∑i∑kmin(hk(ci),maxj∈mhk(sij))∑i∑khk(ci)
b(C,S)={1if lC>lSe1lS/lCif lClSb(C,S)={1if lC>lSe1−lS/lCif lC≤lS

其中候選語句(待評測語句)可以表示爲CC,而對應的一組參考語句爲Si={si1,si2,}SSi={si1,si2,⋯}∈S。n-gram表示nn元詞,令ωkωk 表示第k組的n-gram。hk(ci)hk(ci)表示ωkωk在候選語句中cici的出現次數,hk(sij)hk(sij)表示的是ωkωk在參考語句sijsij中的出現的次數,其中CPn(C,S)CPn(C,S)是一個精確度度量。前面的b(C,S)b(C,S)BLEUNBLEUN的BP懲罰因子。

其中lclc表示候選語句cici的長度,lsls表示參考語句sijsij的有效長度。

ROUGELROUGEL

ROUGEROUGE是用來評價文本摘要算法的自動評價標準集,本次圖像中文描述比賽主要採用其中的ROUGELROUGEL作爲評價標準。

ROUGELROUGEL是基於LCS(Longest Common Subsequence)的一種測量方法。LCS是序列XX和序列YY的最大長度公共子序列的統稱。cici表示的待評價語句,sijsij表示參考語句。

ROUGEL(ci,Si)=(1+β2)RlPlRl+β2PlROUGEL(ci,Si)=(1+β2)RlPlRl+β2Pl

其中RlRlPlPl的定義是:

Rl=maxjl(ci,sij)|sij|Rl=maxjl(ci,sij)|sij|
Pl=maxjl(ci,sij)|ci|Pl=maxjl(ci,sij)|ci|

其中β=RlPlβ=RlPl

METEORMETEOR

METEORMETEOR是用來評價機器翻譯輸出的標準。該方法將候選語句和參考語句的詞進行逐一匹配,METEOR需要預先給定一組類似於WordNet的同義詞庫,通過最小化對應語句中連續有序的塊來得出。METEOR的計算爲對應候選語句和參考語句之間的準確率和召回率的調和平均。METEOR的計算公式:

METEOR=(1Pen)FmeanMETEOR=(1−Pen)Fmean
Pen=γ(chm)θPen=γ(chm)θ

其中 PenPen 的定義是:

Pen=γ(chm)θPen=γ(chm)θ

其中FmeanFmean的定義是:

Fmean=PmRmαPm+(1α)RmFmean=PmRmαPm+(1−α)Rm

其中PmPm的定義是:

Pm=|m|khk(ci)Pm=|m|∑khk(ci)

其中RmRm的定義是:

Rm=|m|khk(sij)Rm=|m|∑khk(sij)

其中,ααγγθθ均爲評價的默認參數,m是基於類似於WordNet中文同義詞庫校準的同義詞庫。FmeanFmean是上文所說的LCS兩個句子的相似性。

CIDErCIDEr (Consensus-based Image Description Evaluation)

CIDErCIDEr通過對每個n元組進行Term Frequency Inverse Document Frequency (TF-IDF) 權重計算,來衡量圖像描述的一致性。

CIDEr(ci,Si)=Nn=1ωnCIDErn(ci,Si)CIDEr(ci,Si)=∑n=1NωnCIDErn(ci,Si)

其中的CIDErn(ci,Si)CIDErn(ci,Si)的定義是:

CIDErn(ci,Si)=1mjgn(ci)gn(sij)gn(ci)2gn(sij)2CIDErn(ci,Si)=1m∑jgn(ci)⋅gn(sij)‖gn(ci)‖2⋅‖gn(sij)‖2
gk(sij)=hk(sij)ωlΩhl(sij)log(|I|IpImin(1,qhk(spq)))gk(sij)=hk(sij)∑ωl∈Ωhl(sij)log⁡(|I|∑Ip∈Imin(1,∑qhk(spq)))

其中II表示所有圖片的集合,ΩΩ表示的是n-grams的詞表,gn(cij)gn(cij)gn(sij)gn(sij) 是TF-IDF的向量,其他符號在BLEUBLEU處有定義。

分數標準化方式

由於每個指標的範圍與分佈都不盡相同,所以在計算加權平均值之前,我們需要將所有分數進行標準化處理。具體的標準化公式爲:

~x=x^σx~=xσ^

其中xx爲選手在該項評價指標所得的絕對分數,~xx~爲標準化後的相對分數,^σσ^是該項評價指標上所有選手的絕對分數的標準差。

^μ=Ni=1xi/Nμ^=∑i=1Nxi/N
^σ2=Ni=1(xi^μ)2/(N1)σ^2=∑i=1N(xi−μ^)2/(N−1)

其中^μμ^是該項評價指標上所有選手的絕對分數的均值。


[1] Lin, Tsung-Yi and Maire, Michael and Belongie, Serge and Hays, James and Perona, Pietro and Ramanan, Deva and Dollar, Piotr and Zitnick, C Lawrence, "Microsoft coco: Common objects in context" in European conference on computer vision, 740-755, Springer, 2014.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章