用一句話描述給定圖像中的主要信息,挑戰中文語境下的圖像理解問題。嘗試自然語言處理與計算機視覺技術結合的力量
https://challenger.ai/competition/caption/subject
圖像中文描述問題融合了計算機視覺與自然語言處理兩個方向,是用人工智能算法解決多模式、跨領域問題的典型代表。參賽者需要對給定的每一張測試圖片輸出一句話的描述。描述句子要求符合自然語言習慣,點明圖像中的重要信息,涵蓋主要人物、場景、動作等內容。此次發佈的圖像描述數據集以中文描述語句爲主,與同類科研任務常見的英文數據集相比,中文描述通常在句法、詞法上靈活度較大,算法實現的挑戰也較大。組委會將通過客觀指標(BLEU,METEOR,ROUGEL和CIDEr)和主觀評價(Coherence,Relevance,HelpfulforBlind),並結合答辯表現,對參賽隊伍進行評價。
數據形式包含圖像和對應5句中文描述,以下圖爲例。
中文描述
1)藍天下一個穿灰色T恤帥小夥以瀟灑的姿勢上籃
2)蔚藍的天空下一位英姿颯爽的男孩在上籃
3)藍天下一個騰空躍起的男人正在奮力地灌籃
4)一個穿着灰色運動裝的男生在晴朗的天空下打籃球
5)一個短頭髮的男孩在籃球場上騰空躍起
選手提交的預測結果需要對每一張圖片輸出一句預測的中文描述語句,提交的預測文件格式存儲爲JSON,按照以下格式進行提交:
[
{
"image_id":"d9a9a8cfb9fdebe3f4f6996756ae23ae0e473d0c",
"caption": "藍天下一個男孩在投籃"
},
{
"image_id":"a0f6bdc065a602b7b84a67fb8d14ce403d902e0d",
"caption": "一個小男孩在安靜的小河邊釣魚"
},
...
]
本賽道採用客觀和主觀相結合的評價標準,和答辯環節得分的總和 (根據主客觀得分優秀者進入答辯環節)。
客觀評價總覽
客觀的評價標準包括:BLEU,METEOR,ROUGEL,CIDEr。根據這四個評價標準得到一個客觀評價的得分。[1]
其中的S(team)@METEOR表示在METEOR標準下進行標準化後的得分,Sm1(team)表示客觀評價分數的加權平均值,然後對分數Sm1(team)進行標準化處理得到的客觀評價分數。
我們將提供驗證腳本,幫助選手在線下測試模型效果。測試腳本、以及詳細使用方法,將與驗證數據集同時發佈。
提示:圖像中文描述比賽評測過程使用jieba 0.38進行中文分詞。
主觀評價總覽
主觀的評價包括:
對測試結果中的子集由評委團進行主觀評價,對每個代表隊的候選句子進行打分(1-5),分數越高越好。打分遵循三個原則。
流暢度(Coherence):評價生成語句的邏輯和可讀性。
相關性(Relevance):評價生成語句是否包含對應的圖像中有的重要的物體/動作/事件等。
助盲性(Help_For_Blind):評價生成語句對一個有視力缺陷的人去理解圖像有幫助的程度。
得到主觀評價排名m2,公式如下:
其中S(team)@Coherence表示在Coherence上進行標準化後的分數。
綜合主觀和客觀評價
綜合主客觀評價排名選出優秀的團隊參加最終的答辯
對Sm1m2分數進行從高到低排序,優選出若干只隊伍進入答辯環節。
答辯分數
我們根據主客觀的排名情況,選擇若干只優秀的隊伍進入最終答辯環節,Sm3(team)爲答辯評分標準化後的分數。
Sm3(team) is the presentation performance score. Similarly Sm3(team) needs to be normalized.
最終得分
其中Sm1m2m3(team)爲綜合客觀指標、主觀指標與答辯得分的最終分數,權重待定。本次比賽將根據三項加權的最終分數從高到低進行排名。
詳細客觀評價方法
本次圖像描述比賽客觀評價採用四種常用評價標準:BLEU, METEOR, ROUGE和 CIDEr。
BLEU (Bilingual Evaluation Understudy)
BLEU是一種通過計算候選譯文和參考譯文中n元詞共同出現的程度,來衡量候選句子與參考句子相似度的機器翻譯度量方法。計算公式如下:
其中候選語句(待評測語句)可以表示爲C,而對應的一組參考語句爲Si={si1,si2,⋯}∈S。n-gram表示n元詞,令ωk 表示第k組的n-gram。hk(ci)表示ωk在候選語句中ci的出現次數,hk(sij)表示的是ωk在參考語句sij中的出現的次數,其中CPn(C,S)是一個精確度度量。前面的b(C,S)是BLEUN的BP懲罰因子。
其中lc表示候選語句ci的長度,ls表示參考語句sij的有效長度。
ROUGEL
ROUGE是用來評價文本摘要算法的自動評價標準集,本次圖像中文描述比賽主要採用其中的ROUGEL作爲評價標準。
ROUGEL是基於LCS(Longest Common Subsequence)的一種測量方法。LCS是序列X和序列Y的最大長度公共子序列的統稱。ci表示的待評價語句,sij表示參考語句。
其中Rl和Pl的定義是:
其中β=RlPl。
METEOR
METEOR是用來評價機器翻譯輸出的標準。該方法將候選語句和參考語句的詞進行逐一匹配,METEOR需要預先給定一組類似於WordNet的同義詞庫,通過最小化對應語句中連續有序的塊來得出。METEOR的計算爲對應候選語句和參考語句之間的準確率和召回率的調和平均。METEOR的計算公式:
其中 Pen 的定義是:
Pen=γ(chm)θ
其中Fmean的定義是:
其中Pm的定義是:
其中Rm的定義是:
其中,α、γ和θ均爲評價的默認參數,m是基於類似於WordNet中文同義詞庫校準的同義詞庫。Fmean是上文所說的LCS兩個句子的相似性。
CIDEr (Consensus-based Image Description Evaluation)
CIDEr通過對每個n元組進行Term Frequency Inverse Document Frequency (TF-IDF) 權重計算,來衡量圖像描述的一致性。
其中的CIDErn(ci,Si)的定義是:
其中I表示所有圖片的集合,Ω表示的是n-grams的詞表,gn(cij)和gn(sij) 是TF-IDF的向量,其他符號在BLEU處有定義。
分數標準化方式
由於每個指標的範圍與分佈都不盡相同,所以在計算加權平均值之前,我們需要將所有分數進行標準化處理。具體的標準化公式爲:
其中x爲選手在該項評價指標所得的絕對分數,~x爲標準化後的相對分數,^σ是該項評價指標上所有選手的絕對分數的標準差。
其中^μ是該項評價指標上所有選手的絕對分數的均值。