在評價一個機器翻譯系統時,譯文的質量好壞無法通過文本形式的輸出直觀地體現,所以我們需要採用一些適當的量化標準對機器翻譯的譯文結果進行評價,而這些標準同樣可適用於圖像/視頻描述等領域。
下面分別對兩個常用的評價方法進行介紹:
BLEU
BLEU(Bilingual Evaluation understudy)是一種流行的機器翻譯評價指標,用於分析候選譯文和參考譯文中n元組共同出現的程度,由IBM於2002年提出
對於一個待翻譯句子,候選譯文可以表示爲
BLEU則按下式計算對應語句中語料庫層面上的重合精度:
其中
容易看出
所以我們再引入一個懲罰因子BP(Brevity Penalty):
其中
本質上,BLEU是一個
其中,
BLEU在語料庫層級上具有很好匹配的語句上表現很好,但隨着n的增加,在句子層級上的匹配越來越差
因此,BLEU在個別語句上可能表現不佳
METEOR
METEOR標準於2004年由Lavir發現在評價指標中召回率的意義後提出
他們的研究表明,召回率基礎上的標準相比於那些單純基於精度的標準(如BLEU),其結果和人工判斷的結果有較高相關性
METEOR測度基於單精度的加權調和平均數和單字召回率,其目的是解決一些BLEU標準中固有的缺陷
METEOR也包括其他指標沒有發現一些其他功能,如同義詞匹配等
計算METEOR需要預先給定一組校準(alignment)
則METEOR計算爲對應最佳候選譯文和參考譯文之間的準確率和召回率的調和平均:
其中,
因此,METEOR的最終評價基於塊(chunk)的分解匹配和表徵分解匹配質量的一個調和平均,幷包含一個懲罰係數
和BLEU不同,METEOR同時考慮了基於整個語料庫上的準確率和召回率,而最終得出測度
—————————————————————————-
Reference
[1]X. Chen, H. Fang, T.-Y. Lin, R. Vedantam, S. Gupta, P. Dollar, and C. L. Zitnick. Microsoft COCO captions: Data collection and evaluation server. arXiv:1504.00325, 2015.
[2]K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “Bleu: a method for automatic evaluation of machine translation,” in ACL, 2002.
[3]M. Denkowski and A. Lavie, “Meteor universal: Language specific translation evaluation for any target language,” in EACL Workshop on Statistical Machine Translation, 2014.